推理算力圈,跑來(lái)了一個(gè)“滴滴”
今年,大模型集體降價(jià),讓模型使用門(mén)檻向“免費(fèi)”逐漸靠攏,也讓AI應(yīng)用大爆發(fā)的時(shí)間窗口越來(lái)越近。
隨著生成式AI 模型參數(shù)和 Token 數(shù)量不斷增加,模型單次推理所需的算力持續(xù)攀升。同時(shí),ChatGPT、Gemini、Kimi 等聊天機(jī)器人的用戶(hù)數(shù)逐步上升, Microsoft Copilot、Adobe Firefly、WPS AI 等辦公助手持續(xù)落地,用戶(hù)側(cè)的流量不斷上升,也讓推理算力需求有望高速增長(zhǎng)。
一言以蔽之,那就是“推理”將替代“訓(xùn)練”,成為舞臺(tái)上的主角。
然而,目前AI推理面臨的主要問(wèn)題是成本高昂,尤其是隨著模型規(guī)模增大,計(jì)算需求和成本也隨之增加。此外,推理效率普遍較低,加上復(fù)雜的業(yè)務(wù)場(chǎng)景和應(yīng)用鏈路,進(jìn)一步推高了推理成本。
矛盾之下,問(wèn)題隨之浮現(xiàn):怎么樣才能把算力運(yùn)到每個(gè)用戶(hù)手上能夠用起來(lái),誰(shuí)能成為解決算力網(wǎng)的“最后一公里”的有效途徑?
9月4日,分布式云服務(wù)商PPIO派歐云以“分布式算力網(wǎng)絡(luò)”的提出,給出了“算力版滴滴”的解法。
從PPTV到 PPIO,華科大校友攜手以“分布式云”二次創(chuàng)業(yè)
談及PPIO派歐云,繞不開(kāi)其聯(lián)合創(chuàng)始人兼CEO姚欣。
2002年,當(dāng)時(shí)還在念本科的姚欣,被華中科技大學(xué)金海教授“當(dāng)有一天網(wǎng)格(當(dāng)時(shí)的叫法)足夠分布的時(shí)候,我們每個(gè)人用算力就像用電用自來(lái)水一樣,隨時(shí)隨地接上插頭、打開(kāi)水龍頭就可以使用到。算力將無(wú)時(shí)不在、無(wú)處不在。”的描繪所鼓舞。
隨后1年,他就通過(guò)整合匯聚每個(gè)用戶(hù)看視頻時(shí)閑置的上行帶寬,加速了視頻時(shí)代的到來(lái)。
姚欣
而這個(gè)項(xiàng)目,就是2012年位列中國(guó)視頻網(wǎng)站用戶(hù)規(guī)模第2名的PPTV,連接了全國(guó)4.5億臺(tái)的手機(jī)、PC、機(jī)頂盒等設(shè)備,建立起的一個(gè)分布式的存儲(chǔ)和傳輸網(wǎng)絡(luò),是軟銀曾四輪押注的風(fēng)投寵兒。
2013年10月,蘇寧聯(lián)合弘毅資本以4.2億美元入股PPTV,其中蘇寧以2.5億美元收購(gòu)PPTV 44%的股份,成為第一大股東,姚欣也隨即創(chuàng)而優(yōu)則投,以藍(lán)馳創(chuàng)投合伙人的身份跑入一級(jí)市場(chǎng)。
但他心中二次創(chuàng)業(yè)的火焰卻始終燃燒著,直到2018年,一個(gè)報(bào)告讓他再次捕捉到了機(jī)會(huì)。
他看到,全國(guó)所有的數(shù)據(jù)中心的機(jī)房平均利用率只有53%,意味著近47%的空間沒(méi)有被充分地使用。于是,姚欣便找到也是華科大校友的前PPTV首席架構(gòu)師兼聯(lián)創(chuàng)王聞?dòng)钐岢隽艘粋€(gè)想法。
“我們能不能夠從當(dāng)年匯聚用戶(hù)的資源到匯聚企業(yè)的資源,把企業(yè)側(cè)閑置的數(shù)據(jù)中心,閑置的機(jī)房資源整合起來(lái),形成一個(gè)分布式的云服務(wù)?”
無(wú)獨(dú)有偶的事,就和過(guò)去兩人做PPTV時(shí)所積累的分布式計(jì)算、分布式系統(tǒng)的能力相關(guān),姚欣敏銳地察覺(jué)到可能又將迎來(lái)一次新時(shí)代的起點(diǎn),可以去做新時(shí)代的數(shù)字底座。
于是,二人再次攜手,還是王聞?dòng)顜ш?duì)技術(shù),PPIO派歐云應(yīng)運(yùn)而生。
公司成立同月,19位明星CEO聞聲而動(dòng),包括百川智能創(chuàng)始人王小川、迅雷創(chuàng)始人程浩、元?dú)馍謩?chuàng)始人唐彬森、前微軟Azure中國(guó)總裁申元慶等在內(nèi)的科技行業(yè)人士,就火速投出了數(shù)千萬(wàn)元天使資金。
彼時(shí),與云廠商解決如何面對(duì)上百萬(wàn)臺(tái)標(biāo)準(zhǔn)的、規(guī)范的、高性能的服務(wù)器互聯(lián)互通,形成大的云計(jì)算能力不同,PPIO的挑戰(zhàn)在于,整合企業(yè)側(cè)的算力閑置空間,要在非標(biāo)、異構(gòu)和碎片的基礎(chǔ)設(shè)施之上,建立一套可靠的商業(yè)服務(wù)。
為此,在二次創(chuàng)業(yè)的前三年,團(tuán)隊(duì)一直在云原生上攻克并實(shí)現(xiàn)技術(shù)上的“金剛鉆”,包括自動(dòng)化的運(yùn)維、利用網(wǎng)絡(luò)能力將上千個(gè)機(jī)房互聯(lián)互通、以及基于云原生的標(biāo)準(zhǔn)來(lái)進(jìn)行邊緣云原生的K8S的研發(fā)和架構(gòu)的精簡(jiǎn),由此來(lái)實(shí)現(xiàn)更加實(shí)時(shí)的彈性調(diào)度。
2019年公司推出了“派歐邊緣云產(chǎn)品”,隨后形成了邊緣CDN、邊緣計(jì)算和邊緣渲染的產(chǎn)品矩陣,并在2020年陸續(xù)簽下了愛(ài)奇藝、騰訊云、百度云等標(biāo)桿客戶(hù)。
截至目前,其資源節(jié)點(diǎn)覆蓋了國(guó)內(nèi)外1200多個(gè)城市及地區(qū),現(xiàn)有3500+全球分布式算力節(jié)點(diǎn),支撐每一天的用戶(hù)訪問(wèn)量達(dá)2億到3億次,客戶(hù)已包括眾多全國(guó)前20名的互聯(lián)網(wǎng)企業(yè)。
據(jù)姚欣透露,過(guò)去5年,邊緣云業(yè)務(wù)經(jīng)歷了迅猛發(fā)展,已經(jīng)實(shí)現(xiàn)盈利。
以“三層”推理云服務(wù),做“算力版滴滴”
行至2024年,在大模型時(shí)代帶來(lái)生成式AI后,PPIO派歐云也有了新故事。
算力大爆發(fā)下,AI面臨著成本上的使用挑戰(zhàn)已成不爭(zhēng)的事實(shí)。
姚欣做了一組假設(shè),全球70億人口只有10億用戶(hù)每天使用人工智能(ChatGPT),每天消耗7000個(gè)Token,假設(shè)7000個(gè)Token費(fèi)用乘以一年,僅是服務(wù)10億用戶(hù),就需要750億美金用于推理對(duì)話,這還只是推理對(duì)話使用,相當(dāng)于40座哈利法塔(世界第一樓)的建造成本,一年時(shí)間就燒完了。
這意味著,當(dāng)模型訓(xùn)練出來(lái)讓上億用戶(hù)使用時(shí),要使用的推理消耗會(huì)更大幅度地消耗,而這種消耗高速增長(zhǎng),就必須實(shí)現(xiàn)算力成本數(shù)量級(jí)的下降。
同時(shí),姚欣也看到中國(guó)算力有著算力需求區(qū)域跟能源最有優(yōu)勢(shì)的區(qū)域不一致、獨(dú)立重復(fù)建設(shè)以及硬件梯次利用不足的三大難題,亟待解決。
而這些問(wèn)題,就推動(dòng)著PPIO在過(guò)去兩年開(kāi)始,從邊緣云擴(kuò)展到算力云,與大客戶(hù)攜手做了一系列的嘗試,以期以分布式算力網(wǎng)絡(luò)把碎片化、非標(biāo)、異構(gòu)的資源在大模型時(shí)代被有效充分地使用。
譬如,聯(lián)合多家運(yùn)營(yíng)商來(lái)去進(jìn)行資源的內(nèi)部充分調(diào)用和使用,PPIO通過(guò)把技術(shù)部署在運(yùn)營(yíng)商系統(tǒng)內(nèi),來(lái)讓內(nèi)部的GPU進(jìn)行資源化和池化來(lái)充分使用,同時(shí)將不同年代的卡型混合調(diào)用,解決一系列的充分利用問(wèn)題,來(lái)實(shí)現(xiàn)算力的梯次利用。
去年,百川智能還成為了PPIO算力云產(chǎn)品的首家大模型服務(wù)客戶(hù),由PPIO助力其大規(guī)模AI推理。
諸此種種努力,為PPIO構(gòu)建了AI時(shí)代技術(shù)的積累和能力的提升,也隨之形成了姚欣所說(shuō)的“利用分布式云的優(yōu)勢(shì),三年實(shí)現(xiàn)千倍降本,以算力普惠推動(dòng) AI 普惠”的算力云產(chǎn)品矩陣。
據(jù)PPIO派歐云聯(lián)合創(chuàng)始人兼CTO王聞?dòng)畋硎荆懔υ飘a(chǎn)品為開(kāi)發(fā)者提供推理云服務(wù),一共分三個(gè)層面:一是“毛坯層”GPU Instance(GPU容器實(shí)例),二是“簡(jiǎn)裝層”Serverless云原生體系,三是“精裝層”,為初創(chuàng)開(kāi)發(fā)者提供的大模型AI服務(wù),直接基于API的一站式使用。
而這三層有不同的開(kāi)發(fā)邏輯,分別服務(wù)大中小型企業(yè)。
在GPU Instance上,內(nèi)置無(wú)縫集成尖端技術(shù)推理加速引擎(PPInfer),通過(guò)一系列自研推理加速算法,使大語(yǔ)言模型(LLM)推理性能提升10倍。適合可投入巨大工作量的大公司,而開(kāi)發(fā)者只用為此負(fù)擔(dān)算力所消耗的成本。
不過(guò),值得注意的是,“毛坯”意味著什么都需要自己搭建,使用者要面臨大量的IP一臺(tái)臺(tái)部署應(yīng)用、為閑置算力進(jìn)行付費(fèi),以及搭建一堆服務(wù)部署各種環(huán)境等痛點(diǎn),所以在這層之上,算力云發(fā)布了“簡(jiǎn)裝層”Serverless產(chǎn)品。
在Auto Scaling、沙盒化的虛擬環(huán)境這兩大核心技術(shù)支撐下,專(zhuān)為AI推理場(chǎng)景設(shè)計(jì)的Serverless產(chǎn)品具備彈性伸縮、免運(yùn)維的特性,幫助開(kāi)發(fā)者在保持開(kāi)發(fā)情況下依然可以享受快速云原生的服務(wù),從而幫助企業(yè)實(shí)現(xiàn)降本增效。
再往上,便是場(chǎng)景覆蓋較多、操作最簡(jiǎn)單的算力云產(chǎn)品矩陣中最上層,Model-API。
這一層中,支持AIGC應(yīng)用開(kāi)發(fā)所需的全模態(tài) API,由智譜AI、百川智能、通義千問(wèn)等大模型合作提供,開(kāi)發(fā)者無(wú)需精通機(jī)器學(xué)習(xí)、只要調(diào)撥API 5到10分鐘即可快速部署和調(diào)用大模型功能,主要服務(wù)長(zhǎng)尾的中小型開(kāi)發(fā)者,應(yīng)對(duì)電商做圖、游戲設(shè)計(jì)、自動(dòng)化營(yíng)銷(xiāo)客服、數(shù)字人等不同場(chǎng)景應(yīng)用。
王聞?dòng)钔嘎叮赑PInfer的推理引擎+基于Serverless云原生的技術(shù)能力,再結(jié)合PPIO算力云自身充分使用梯度顯卡和發(fā)電的能力,綜合下來(lái),Model API服務(wù)不僅顯著提升了AI應(yīng)用的開(kāi)發(fā)效率,還通過(guò)按需付費(fèi)模式給開(kāi)發(fā)者做到“極致性?xún)r(jià)比”。
PPIO派歐云聯(lián)創(chuàng)兼CTO 王聞?dòng)?
據(jù)悉,價(jià)格方面,GLM-4的 Model API 費(fèi)用達(dá)到每1億(100M)Token價(jià)格達(dá)0.5元,從而以低價(jià)格來(lái)顯著提升AI應(yīng)用的開(kāi)發(fā)效率,并有效降低企業(yè)開(kāi)發(fā)和運(yùn)營(yíng)成本。
于推理算力而言,姚欣認(rèn)為,PPIO做的是整合者和搬運(yùn)者,是算力“最后一公里”的“滴滴”,也是“貨拉拉”。
“算力云是基于供需不匹配,算力、甚至IT資源的閑置這一長(zhǎng)期且持續(xù)存在的現(xiàn)象出發(fā),整合企業(yè)側(cè)閑置的、碎片化的能力和算力,然后去承載各種各樣不同的服務(wù)和應(yīng)用,可以理解為既拉人、也拉貨。”
姚欣坦言,目前算力云產(chǎn)品矩陣剛面世,其商業(yè)化才剛剛開(kāi)始,根據(jù)TIRIAS research的研究,從未來(lái)算力構(gòu)成來(lái)看,95%是推理算力,5%是訓(xùn)練算力,但這95%也不會(huì)出現(xiàn)一家獨(dú)大局面。
“未來(lái)兩、三年內(nèi),我們有望看到大模型逐漸走向集中化和標(biāo)準(zhǔn)化,在這其中,異構(gòu)推理算力硬件環(huán)境將會(huì)呈現(xiàn)‘百花齊放’狀態(tài),針對(duì)不同的場(chǎng)景,不同的領(lǐng)域,有不同的解決方案,不同的卡去解決它。對(duì)于未來(lái)三年AI推理成本下降100倍、1000倍的過(guò)程預(yù)測(cè),我們是非常樂(lè)觀的。”
左為PPIO派歐云創(chuàng)始人兼CEO 姚欣,右為金海教授
值得注意的是,此次會(huì)上,PPIO派歐云宣布聘請(qǐng)華中科技大學(xué)教授、長(zhǎng)江學(xué)者特聘教授、中國(guó)計(jì)算機(jī)學(xué)會(huì)副理事長(zhǎng)金海教授擔(dān)任公司技術(shù)委員會(huì)主席,而金海教授早在2002年就開(kāi)始負(fù)責(zé)中國(guó)教育網(wǎng)的網(wǎng)格計(jì)算建設(shè),也是2007年第一批從事虛擬化和云計(jì)算研究的科研專(zhuān)家,是中國(guó)分布式計(jì)算領(lǐng)域的領(lǐng)軍人物。
他曾是姚欣創(chuàng)業(yè)的引路人,而這一次,金海教授也將為公司技術(shù)團(tuán)隊(duì)提供深入全面的指導(dǎo),將分布式云技術(shù)邊界進(jìn)一步拓展,推動(dòng)更多應(yīng)用的落地,讓更多創(chuàng)業(yè)者輕裝上陣。
天眼查顯示,PPIO派歐云截至今日已完成3輪融資,融資金額超4億元,資方名單包括藍(lán)馳創(chuàng)投、張江科投、創(chuàng)世伙伴等知名VC。
而隨著CEO姚欣、CTO王聞?dòng)睢⑹紫茖W(xué)家王曉飛,以及剛特聘的技術(shù)委員會(huì)主席金海教授吹響華科大逐鹿推理算力的號(hào)角,賽道勢(shì)必將燃起新的硝煙。