推理算力圈,跑來了一個“滴滴”
今年,大模型集體降價,讓模型使用門檻向“免費”逐漸靠攏,也讓AI應(yīng)用大爆發(fā)的時間窗口越來越近。
隨著生成式AI 模型參數(shù)和 Token 數(shù)量不斷增加,模型單次推理所需的算力持續(xù)攀升。同時,ChatGPT、Gemini、Kimi 等聊天機器人的用戶數(shù)逐步上升, Microsoft Copilot、Adobe Firefly、WPS AI 等辦公助手持續(xù)落地,用戶側(cè)的流量不斷上升,也讓推理算力需求有望高速增長。
一言以蔽之,那就是“推理”將替代“訓練”,成為舞臺上的主角。
然而,目前AI推理面臨的主要問題是成本高昂,尤其是隨著模型規(guī)模增大,計算需求和成本也隨之增加。此外,推理效率普遍較低,加上復雜的業(yè)務(wù)場景和應(yīng)用鏈路,進一步推高了推理成本。
矛盾之下,問題隨之浮現(xiàn):怎么樣才能把算力運到每個用戶手上能夠用起來,誰能成為解決算力網(wǎng)的“最后一公里”的有效途徑?
9月4日,分布式云服務(wù)商PPIO派歐云以“分布式算力網(wǎng)絡(luò)”的提出,給出了“算力版滴滴”的解法。
從PPTV到 PPIO,華科大校友攜手以“分布式云”二次創(chuàng)業(yè)
談及PPIO派歐云,繞不開其聯(lián)合創(chuàng)始人兼CEO姚欣。
2002年,當時還在念本科的姚欣,被華中科技大學金海教授“當有一天網(wǎng)格(當時的叫法)足夠分布的時候,我們每個人用算力就像用電用自來水一樣,隨時隨地接上插頭、打開水龍頭就可以使用到。算力將無時不在、無處不在。”的描繪所鼓舞。
隨后1年,他就通過整合匯聚每個用戶看視頻時閑置的上行帶寬,加速了視頻時代的到來。
姚欣
而這個項目,就是2012年位列中國視頻網(wǎng)站用戶規(guī)模第2名的PPTV,連接了全國4.5億臺的手機、PC、機頂盒等設(shè)備,建立起的一個分布式的存儲和傳輸網(wǎng)絡(luò),是軟銀曾四輪押注的風投寵兒。
2013年10月,蘇寧聯(lián)合弘毅資本以4.2億美元入股PPTV,其中蘇寧以2.5億美元收購PPTV 44%的股份,成為第一大股東,姚欣也隨即創(chuàng)而優(yōu)則投,以藍馳創(chuàng)投合伙人的身份跑入一級市場。
但他心中二次創(chuàng)業(yè)的火焰卻始終燃燒著,直到2018年,一個報告讓他再次捕捉到了機會。
他看到,全國所有的數(shù)據(jù)中心的機房平均利用率只有53%,意味著近47%的空間沒有被充分地使用。于是,姚欣便找到也是華科大校友的前PPTV首席架構(gòu)師兼聯(lián)創(chuàng)王聞宇提出了一個想法。
“我們能不能夠從當年匯聚用戶的資源到匯聚企業(yè)的資源,把企業(yè)側(cè)閑置的數(shù)據(jù)中心,閑置的機房資源整合起來,形成一個分布式的云服務(wù)?”
無獨有偶的事,就和過去兩人做PPTV時所積累的分布式計算、分布式系統(tǒng)的能力相關(guān),姚欣敏銳地察覺到可能又將迎來一次新時代的起點,可以去做新時代的數(shù)字底座。
于是,二人再次攜手,還是王聞宇帶隊技術(shù),PPIO派歐云應(yīng)運而生。
公司成立同月,19位明星CEO聞聲而動,包括百川智能創(chuàng)始人王小川、迅雷創(chuàng)始人程浩、元氣森林創(chuàng)始人唐彬森、前微軟Azure中國總裁申元慶等在內(nèi)的科技行業(yè)人士,就火速投出了數(shù)千萬元天使資金。
彼時,與云廠商解決如何面對上百萬臺標準的、規(guī)范的、高性能的服務(wù)器互聯(lián)互通,形成大的云計算能力不同,PPIO的挑戰(zhàn)在于,整合企業(yè)側(cè)的算力閑置空間,要在非標、異構(gòu)和碎片的基礎(chǔ)設(shè)施之上,建立一套可靠的商業(yè)服務(wù)。
為此,在二次創(chuàng)業(yè)的前三年,團隊一直在云原生上攻克并實現(xiàn)技術(shù)上的“金剛鉆”,包括自動化的運維、利用網(wǎng)絡(luò)能力將上千個機房互聯(lián)互通、以及基于云原生的標準來進行邊緣云原生的K8S的研發(fā)和架構(gòu)的精簡,由此來實現(xiàn)更加實時的彈性調(diào)度。
2019年公司推出了“派歐邊緣云產(chǎn)品”,隨后形成了邊緣CDN、邊緣計算和邊緣渲染的產(chǎn)品矩陣,并在2020年陸續(xù)簽下了愛奇藝、騰訊云、百度云等標桿客戶。
截至目前,其資源節(jié)點覆蓋了國內(nèi)外1200多個城市及地區(qū),現(xiàn)有3500+全球分布式算力節(jié)點,支撐每一天的用戶訪問量達2億到3億次,客戶已包括眾多全國前20名的互聯(lián)網(wǎng)企業(yè)。
據(jù)姚欣透露,過去5年,邊緣云業(yè)務(wù)經(jīng)歷了迅猛發(fā)展,已經(jīng)實現(xiàn)盈利。
以“三層”推理云服務(wù),做“算力版滴滴”
行至2024年,在大模型時代帶來生成式AI后,PPIO派歐云也有了新故事。
算力大爆發(fā)下,AI面臨著成本上的使用挑戰(zhàn)已成不爭的事實。
姚欣做了一組假設(shè),全球70億人口只有10億用戶每天使用人工智能(ChatGPT),每天消耗7000個Token,假設(shè)7000個Token費用乘以一年,僅是服務(wù)10億用戶,就需要750億美金用于推理對話,這還只是推理對話使用,相當于40座哈利法塔(世界第一樓)的建造成本,一年時間就燒完了。
這意味著,當模型訓練出來讓上億用戶使用時,要使用的推理消耗會更大幅度地消耗,而這種消耗高速增長,就必須實現(xiàn)算力成本數(shù)量級的下降。
同時,姚欣也看到中國算力有著算力需求區(qū)域跟能源最有優(yōu)勢的區(qū)域不一致、獨立重復建設(shè)以及硬件梯次利用不足的三大難題,亟待解決。
而這些問題,就推動著PPIO在過去兩年開始,從邊緣云擴展到算力云,與大客戶攜手做了一系列的嘗試,以期以分布式算力網(wǎng)絡(luò)把碎片化、非標、異構(gòu)的資源在大模型時代被有效充分地使用。
譬如,聯(lián)合多家運營商來去進行資源的內(nèi)部充分調(diào)用和使用,PPIO通過把技術(shù)部署在運營商系統(tǒng)內(nèi),來讓內(nèi)部的GPU進行資源化和池化來充分使用,同時將不同年代的卡型混合調(diào)用,解決一系列的充分利用問題,來實現(xiàn)算力的梯次利用。
去年,百川智能還成為了PPIO算力云產(chǎn)品的首家大模型服務(wù)客戶,由PPIO助力其大規(guī)模AI推理。
諸此種種努力,為PPIO構(gòu)建了AI時代技術(shù)的積累和能力的提升,也隨之形成了姚欣所說的“利用分布式云的優(yōu)勢,三年實現(xiàn)千倍降本,以算力普惠推動 AI 普惠”的算力云產(chǎn)品矩陣。
據(jù)PPIO派歐云聯(lián)合創(chuàng)始人兼CTO王聞宇表示,算力云產(chǎn)品為開發(fā)者提供推理云服務(wù),一共分三個層面:一是“毛坯層”GPU Instance(GPU容器實例),二是“簡裝層”Serverless云原生體系,三是“精裝層”,為初創(chuàng)開發(fā)者提供的大模型AI服務(wù),直接基于API的一站式使用。
而這三層有不同的開發(fā)邏輯,分別服務(wù)大中小型企業(yè)。
在GPU Instance上,內(nèi)置無縫集成尖端技術(shù)推理加速引擎(PPInfer),通過一系列自研推理加速算法,使大語言模型(LLM)推理性能提升10倍。適合可投入巨大工作量的大公司,而開發(fā)者只用為此負擔算力所消耗的成本。
不過,值得注意的是,“毛坯”意味著什么都需要自己搭建,使用者要面臨大量的IP一臺臺部署應(yīng)用、為閑置算力進行付費,以及搭建一堆服務(wù)部署各種環(huán)境等痛點,所以在這層之上,算力云發(fā)布了“簡裝層”Serverless產(chǎn)品。
在Auto Scaling、沙盒化的虛擬環(huán)境這兩大核心技術(shù)支撐下,專為AI推理場景設(shè)計的Serverless產(chǎn)品具備彈性伸縮、免運維的特性,幫助開發(fā)者在保持開發(fā)情況下依然可以享受快速云原生的服務(wù),從而幫助企業(yè)實現(xiàn)降本增效。
再往上,便是場景覆蓋較多、操作最簡單的算力云產(chǎn)品矩陣中最上層,Model-API。
這一層中,支持AIGC應(yīng)用開發(fā)所需的全模態(tài) API,由智譜AI、百川智能、通義千問等大模型合作提供,開發(fā)者無需精通機器學習、只要調(diào)撥API 5到10分鐘即可快速部署和調(diào)用大模型功能,主要服務(wù)長尾的中小型開發(fā)者,應(yīng)對電商做圖、游戲設(shè)計、自動化營銷客服、數(shù)字人等不同場景應(yīng)用。
王聞宇透露,基于PPInfer的推理引擎+基于Serverless云原生的技術(shù)能力,再結(jié)合PPIO算力云自身充分使用梯度顯卡和發(fā)電的能力,綜合下來,Model API服務(wù)不僅顯著提升了AI應(yīng)用的開發(fā)效率,還通過按需付費模式給開發(fā)者做到“極致性價比”。
PPIO派歐云聯(lián)創(chuàng)兼CTO 王聞宇
據(jù)悉,價格方面,GLM-4的 Model API 費用達到每1億(100M)Token價格達0.5元,從而以低價格來顯著提升AI應(yīng)用的開發(fā)效率,并有效降低企業(yè)開發(fā)和運營成本。
于推理算力而言,姚欣認為,PPIO做的是整合者和搬運者,是算力“最后一公里”的“滴滴”,也是“貨拉拉”。
“算力云是基于供需不匹配,算力、甚至IT資源的閑置這一長期且持續(xù)存在的現(xiàn)象出發(fā),整合企業(yè)側(cè)閑置的、碎片化的能力和算力,然后去承載各種各樣不同的服務(wù)和應(yīng)用,可以理解為既拉人、也拉貨。”
姚欣坦言,目前算力云產(chǎn)品矩陣剛面世,其商業(yè)化才剛剛開始,根據(jù)TIRIAS research的研究,從未來算力構(gòu)成來看,95%是推理算力,5%是訓練算力,但這95%也不會出現(xiàn)一家獨大局面。
“未來兩、三年內(nèi),我們有望看到大模型逐漸走向集中化和標準化,在這其中,異構(gòu)推理算力硬件環(huán)境將會呈現(xiàn)‘百花齊放’狀態(tài),針對不同的場景,不同的領(lǐng)域,有不同的解決方案,不同的卡去解決它。對于未來三年AI推理成本下降100倍、1000倍的過程預測,我們是非常樂觀的。”
左為PPIO派歐云創(chuàng)始人兼CEO 姚欣,右為金海教授
值得注意的是,此次會上,PPIO派歐云宣布聘請華中科技大學教授、長江學者特聘教授、中國計算機學會副理事長金海教授擔任公司技術(shù)委員會主席,而金海教授早在2002年就開始負責中國教育網(wǎng)的網(wǎng)格計算建設(shè),也是2007年第一批從事虛擬化和云計算研究的科研專家,是中國分布式計算領(lǐng)域的領(lǐng)軍人物。
他曾是姚欣創(chuàng)業(yè)的引路人,而這一次,金海教授也將為公司技術(shù)團隊提供深入全面的指導,將分布式云技術(shù)邊界進一步拓展,推動更多應(yīng)用的落地,讓更多創(chuàng)業(yè)者輕裝上陣。
天眼查顯示,PPIO派歐云截至今日已完成3輪融資,融資金額超4億元,資方名單包括藍馳創(chuàng)投、張江科投、創(chuàng)世伙伴等知名VC。
而隨著CEO姚欣、CTO王聞宇、首席科學家王曉飛,以及剛特聘的技術(shù)委員會主席金海教授吹響華科大逐鹿推理算力的號角,賽道勢必將燃起新的硝煙。





