推理算力圈，跑來了一個“滴滴”

獵云精選孫媛2024-09-13 14:57 大公司

華科大創(chuàng)業(yè)軍團進場了。

今年，大模型集體降價，讓模型使用門檻向“免費”逐漸靠攏，也讓AI應(yīng)用大爆發(fā)的時間窗口越來越近。

隨著生成式AI 模型參數(shù)和 Token 數(shù)量不斷增加，模型單次推理所需的算力持續(xù)攀升。同時，ChatGPT、Gemini、Kimi 等聊天機器人的用戶數(shù)逐步上升， Microsoft Copilot、Adobe Firefly、WPS AI 等辦公助手持續(xù)落地，用戶側(cè)的流量不斷上升，也讓推理算力需求有望高速增長。

一言以蔽之，那就是“推理”將替代“訓練”，成為舞臺上的主角。

然而，目前AI推理面臨的主要問題是成本高昂，尤其是隨著模型規(guī)模增大，計算需求和成本也隨之增加。此外，推理效率普遍較低，加上復雜的業(yè)務(wù)場景和應(yīng)用鏈路，進一步推高了推理成本。

矛盾之下，問題隨之浮現(xiàn)：怎么樣才能把算力運到每個用戶手上能夠用起來，誰能成為解決算力網(wǎng)的“最后一公里”的有效途徑？

9月4日，分布式云服務(wù)商PPIO派歐云以“分布式算力網(wǎng)絡(luò)”的提出，給出了“算力版滴滴”的解法。

從PPTV到 PPIO，華科大校友攜手以“分布式云”二次創(chuàng)業(yè)

談及PPIO派歐云，繞不開其聯(lián)合創(chuàng)始人兼CEO姚欣。

2002年，當時還在念本科的姚欣，被華中科技大學金海教授“當有一天網(wǎng)格（當時的叫法）足夠分布的時候，我們每個人用算力就像用電用自來水一樣，隨時隨地接上插頭、打開水龍頭就可以使用到。算力將無時不在、無處不在。”的描繪所鼓舞。

隨后1年，他就通過整合匯聚每個用戶看視頻時閑置的上行帶寬，加速了視頻時代的到來。

來源：企業(yè)供圖

姚欣

而這個項目，就是2012年位列中國視頻網(wǎng)站用戶規(guī)模第2名的PPTV，連接了全國4.5億臺的手機、PC、機頂盒等設(shè)備，建立起的一個分布式的存儲和傳輸網(wǎng)絡(luò)，是軟銀曾四輪押注的風投寵兒。

2013年10月，蘇寧聯(lián)合弘毅資本以4.2億美元入股PPTV，其中蘇寧以2.5億美元收購PPTV 44%的股份，成為第一大股東，姚欣也隨即創(chuàng)而優(yōu)則投，以藍馳創(chuàng)投合伙人的身份跑入一級市場。

但他心中二次創(chuàng)業(yè)的火焰卻始終燃燒著，直到2018年，一個報告讓他再次捕捉到了機會。

他看到，全國所有的數(shù)據(jù)中心的機房平均利用率只有53%，意味著近47%的空間沒有被充分地使用。于是，姚欣便找到也是華科大校友的前PPTV首席架構(gòu)師兼聯(lián)創(chuàng)王聞宇提出了一個想法。

“我們能不能夠從當年匯聚用戶的資源到匯聚企業(yè)的資源，把企業(yè)側(cè)閑置的數(shù)據(jù)中心，閑置的機房資源整合起來，形成一個分布式的云服務(wù)？”

無獨有偶的事，就和過去兩人做PPTV時所積累的分布式計算、分布式系統(tǒng)的能力相關(guān)，姚欣敏銳地察覺到可能又將迎來一次新時代的起點，可以去做新時代的數(shù)字底座。

于是，二人再次攜手，還是王聞宇帶隊技術(shù)，PPIO派歐云應(yīng)運而生。

來源：企業(yè)供圖

公司成立同月，19位明星CEO聞聲而動，包括百川智能創(chuàng)始人王小川、迅雷創(chuàng)始人程浩、元氣森林創(chuàng)始人唐彬森、前微軟Azure中國總裁申元慶等在內(nèi)的科技行業(yè)人士，就火速投出了數(shù)千萬元天使資金。

彼時，與云廠商解決如何面對上百萬臺標準的、規(guī)范的、高性能的服務(wù)器互聯(lián)互通，形成大的云計算能力不同，PPIO的挑戰(zhàn)在于，整合企業(yè)側(cè)的算力閑置空間，要在非標、異構(gòu)和碎片的基礎(chǔ)設(shè)施之上，建立一套可靠的商業(yè)服務(wù)。

為此，在二次創(chuàng)業(yè)的前三年，團隊一直在云原生上攻克并實現(xiàn)技術(shù)上的“金剛鉆”，包括自動化的運維、利用網(wǎng)絡(luò)能力將上千個機房互聯(lián)互通、以及基于云原生的標準來進行邊緣云原生的K8S的研發(fā)和架構(gòu)的精簡，由此來實現(xiàn)更加實時的彈性調(diào)度。

2019年公司推出了“派歐邊緣云產(chǎn)品”，隨后形成了邊緣CDN、邊緣計算和邊緣渲染的產(chǎn)品矩陣，并在2020年陸續(xù)簽下了愛奇藝、騰訊云、百度云等標桿客戶。

截至目前，其資源節(jié)點覆蓋了國內(nèi)外1200多個城市及地區(qū)，現(xiàn)有3500+全球分布式算力節(jié)點，支撐每一天的用戶訪問量達2億到3億次，客戶已包括眾多全國前20名的互聯(lián)網(wǎng)企業(yè)。

據(jù)姚欣透露，過去5年，邊緣云業(yè)務(wù)經(jīng)歷了迅猛發(fā)展，已經(jīng)實現(xiàn)盈利。

以“三層”推理云服務(wù)，做“算力版滴滴”

行至2024年，在大模型時代帶來生成式AI后，PPIO派歐云也有了新故事。

算力大爆發(fā)下，AI面臨著成本上的使用挑戰(zhàn)已成不爭的事實。

姚欣做了一組假設(shè)，全球70億人口只有10億用戶每天使用人工智能（ChatGPT），每天消耗7000個Token，假設(shè)7000個Token費用乘以一年，僅是服務(wù)10億用戶，就需要750億美金用于推理對話，這還只是推理對話使用，相當于40座哈利法塔（世界第一樓）的建造成本，一年時間就燒完了。

這意味著，當模型訓練出來讓上億用戶使用時，要使用的推理消耗會更大幅度地消耗，而這種消耗高速增長，就必須實現(xiàn)算力成本數(shù)量級的下降。

同時，姚欣也看到中國算力有著算力需求區(qū)域跟能源最有優(yōu)勢的區(qū)域不一致、獨立重復建設(shè)以及硬件梯次利用不足的三大難題，亟待解決。

而這些問題，就推動著PPIO在過去兩年開始，從邊緣云擴展到算力云，與大客戶攜手做了一系列的嘗試，以期以分布式算力網(wǎng)絡(luò)把碎片化、非標、異構(gòu)的資源在大模型時代被有效充分地使用。

譬如，聯(lián)合多家運營商來去進行資源的內(nèi)部充分調(diào)用和使用，PPIO通過把技術(shù)部署在運營商系統(tǒng)內(nèi)，來讓內(nèi)部的GPU進行資源化和池化來充分使用，同時將不同年代的卡型混合調(diào)用，解決一系列的充分利用問題，來實現(xiàn)算力的梯次利用。

去年，百川智能還成為了PPIO算力云產(chǎn)品的首家大模型服務(wù)客戶，由PPIO助力其大規(guī)模AI推理。

諸此種種努力，為PPIO構(gòu)建了AI時代技術(shù)的積累和能力的提升，也隨之形成了姚欣所說的“利用分布式云的優(yōu)勢，三年實現(xiàn)千倍降本，以算力普惠推動 AI 普惠”的算力云產(chǎn)品矩陣。

據(jù)PPIO派歐云聯(lián)合創(chuàng)始人兼CTO王聞宇表示，算力云產(chǎn)品為開發(fā)者提供推理云服務(wù)，一共分三個層面：一是“毛坯層”GPU Instance（GPU容器實例），二是“簡裝層”Serverless云原生體系，三是“精裝層”，為初創(chuàng)開發(fā)者提供的大模型AI服務(wù)，直接基于API的一站式使用。

而這三層有不同的開發(fā)邏輯，分別服務(wù)大中小型企業(yè)。

在GPU Instance上，內(nèi)置無縫集成尖端技術(shù)推理加速引擎（PPInfer），通過一系列自研推理加速算法，使大語言模型（LLM）推理性能提升10倍。適合可投入巨大工作量的大公司，而開發(fā)者只用為此負擔算力所消耗的成本。

不過，值得注意的是，“毛坯”意味著什么都需要自己搭建，使用者要面臨大量的IP一臺臺部署應(yīng)用、為閑置算力進行付費，以及搭建一堆服務(wù)部署各種環(huán)境等痛點，所以在這層之上，算力云發(fā)布了“簡裝層”Serverless產(chǎn)品。

在Auto Scaling、沙盒化的虛擬環(huán)境這兩大核心技術(shù)支撐下，專為AI推理場景設(shè)計的Serverless產(chǎn)品具備彈性伸縮、免運維的特性，幫助開發(fā)者在保持開發(fā)情況下依然可以享受快速云原生的服務(wù)，從而幫助企業(yè)實現(xiàn)降本增效。

再往上，便是場景覆蓋較多、操作最簡單的算力云產(chǎn)品矩陣中最上層，Model-API。

這一層中，支持AIGC應(yīng)用開發(fā)所需的全模態(tài) API，由智譜AI、百川智能、通義千問等大模型合作提供，開發(fā)者無需精通機器學習、只要調(diào)撥API 5到10分鐘即可快速部署和調(diào)用大模型功能，主要服務(wù)長尾的中小型開發(fā)者，應(yīng)對電商做圖、游戲設(shè)計、自動化營銷客服、數(shù)字人等不同場景應(yīng)用。

王聞宇透露，基于PPInfer的推理引擎+基于Serverless云原生的技術(shù)能力，再結(jié)合PPIO算力云自身充分使用梯度顯卡和發(fā)電的能力，綜合下來，Model API服務(wù)不僅顯著提升了AI應(yīng)用的開發(fā)效率，還通過按需付費模式給開發(fā)者做到“極致性價比”。

來源：企業(yè)供圖

PPIO派歐云聯(lián)創(chuàng)兼CTO 王聞宇

據(jù)悉，價格方面，GLM-4的 Model API 費用達到每1億（100M）Token價格達0.5元，從而以低價格來顯著提升AI應(yīng)用的開發(fā)效率，并有效降低企業(yè)開發(fā)和運營成本。

于推理算力而言，姚欣認為，PPIO做的是整合者和搬運者，是算力“最后一公里”的“滴滴”，也是“貨拉拉”。

“算力云是基于供需不匹配，算力、甚至IT資源的閑置這一長期且持續(xù)存在的現(xiàn)象出發(fā)，整合企業(yè)側(cè)閑置的、碎片化的能力和算力，然后去承載各種各樣不同的服務(wù)和應(yīng)用，可以理解為既拉人、也拉貨。”

姚欣坦言，目前算力云產(chǎn)品矩陣剛面世，其商業(yè)化才剛剛開始，根據(jù)TIRIAS research的研究，從未來算力構(gòu)成來看，95%是推理算力，5%是訓練算力，但這95%也不會出現(xiàn)一家獨大局面。

“未來兩、三年內(nèi)，我們有望看到大模型逐漸走向集中化和標準化，在這其中，異構(gòu)推理算力硬件環(huán)境將會呈現(xiàn)‘百花齊放’狀態(tài)，針對不同的場景，不同的領(lǐng)域，有不同的解決方案，不同的卡去解決它。對于未來三年AI推理成本下降100倍、1000倍的過程預測，我們是非常樂觀的。”

來源：企業(yè)供圖

左為PPIO派歐云創(chuàng)始人兼CEO 姚欣，右為金海教授

值得注意的是，此次會上，PPIO派歐云宣布聘請華中科技大學教授、長江學者特聘教授、中國計算機學會副理事長金海教授擔任公司技術(shù)委員會主席，而金海教授早在2002年就開始負責中國教育網(wǎng)的網(wǎng)格計算建設(shè)，也是2007年第一批從事虛擬化和云計算研究的科研專家，是中國分布式計算領(lǐng)域的領(lǐng)軍人物。

他曾是姚欣創(chuàng)業(yè)的引路人，而這一次，金海教授也將為公司技術(shù)團隊提供深入全面的指導，將分布式云技術(shù)邊界進一步拓展，推動更多應(yīng)用的落地，讓更多創(chuàng)業(yè)者輕裝上陣。

天眼查顯示，PPIO派歐云截至今日已完成3輪融資，融資金額超4億元，資方名單包括藍馳創(chuàng)投、張江科投、創(chuàng)世伙伴等知名VC。

而隨著CEO姚欣、CTO王聞宇、首席科學家王曉飛，以及剛特聘的技術(shù)委員會主席金海教授吹響華科大逐鹿推理算力的號角，賽道勢必將燃起新的硝煙。

【本文為合作媒體授權(quán)博望財經(jīng)轉(zhuǎn)載，文章版權(quán)歸原作者及原出處所有。文章系作者個人觀點，不代表博望財經(jīng)立場，轉(zhuǎn)載請聯(lián)系原作者及原出處獲得授權(quán)。有任何疑問都請聯(lián)系（聯(lián)系（微信公眾號ID：AppleiTree）。免責聲明：本網(wǎng)站所有文章僅作為資訊傳播使用，既不代表任何觀點導向，也不構(gòu)成任何投資建議。】