推理算力圈,跑來了一個“滴滴”
今年,大模型集體降價,讓模型使用門檻向“免費”逐漸靠攏,也讓AI應用大爆發的時間窗口越來越近。
隨著生成式AI 模型參數和 Token 數量不斷增加,模型單次推理所需的算力持續攀升。同時,ChatGPT、Gemini、Kimi 等聊天機器人的用戶數逐步上升, Microsoft Copilot、Adobe Firefly、WPS AI 等辦公助手持續落地,用戶側的流量不斷上升,也讓推理算力需求有望高速增長。
一言以蔽之,那就是“推理”將替代“訓練”,成為舞臺上的主角。
然而,目前AI推理面臨的主要問題是成本高昂,尤其是隨著模型規模增大,計算需求和成本也隨之增加。此外,推理效率普遍較低,加上復雜的業務場景和應用鏈路,進一步推高了推理成本。
矛盾之下,問題隨之浮現:怎么樣才能把算力運到每個用戶手上能夠用起來,誰能成為解決算力網的“最后一公里”的有效途徑?
9月4日,分布式云服務商PPIO派歐云以“分布式算力網絡”的提出,給出了“算力版滴滴”的解法。
從PPTV到 PPIO,華科大校友攜手以“分布式云”二次創業
談及PPIO派歐云,繞不開其聯合創始人兼CEO姚欣。
2002年,當時還在念本科的姚欣,被華中科技大學金海教授“當有一天網格(當時的叫法)足夠分布的時候,我們每個人用算力就像用電用自來水一樣,隨時隨地接上插頭、打開水龍頭就可以使用到。算力將無時不在、無處不在。”的描繪所鼓舞。
隨后1年,他就通過整合匯聚每個用戶看視頻時閑置的上行帶寬,加速了視頻時代的到來。
姚欣
而這個項目,就是2012年位列中國視頻網站用戶規模第2名的PPTV,連接了全國4.5億臺的手機、PC、機頂盒等設備,建立起的一個分布式的存儲和傳輸網絡,是軟銀曾四輪押注的風投寵兒。
2013年10月,蘇寧聯合弘毅資本以4.2億美元入股PPTV,其中蘇寧以2.5億美元收購PPTV 44%的股份,成為第一大股東,姚欣也隨即創而優則投,以藍馳創投合伙人的身份跑入一級市場。
但他心中二次創業的火焰卻始終燃燒著,直到2018年,一個報告讓他再次捕捉到了機會。
他看到,全國所有的數據中心的機房平均利用率只有53%,意味著近47%的空間沒有被充分地使用。于是,姚欣便找到也是華科大校友的前PPTV首席架構師兼聯創王聞宇提出了一個想法。
“我們能不能夠從當年匯聚用戶的資源到匯聚企業的資源,把企業側閑置的數據中心,閑置的機房資源整合起來,形成一個分布式的云服務?”
無獨有偶的事,就和過去兩人做PPTV時所積累的分布式計算、分布式系統的能力相關,姚欣敏銳地察覺到可能又將迎來一次新時代的起點,可以去做新時代的數字底座。
于是,二人再次攜手,還是王聞宇帶隊技術,PPIO派歐云應運而生。
公司成立同月,19位明星CEO聞聲而動,包括百川智能創始人王小川、迅雷創始人程浩、元氣森林創始人唐彬森、前微軟Azure中國總裁申元慶等在內的科技行業人士,就火速投出了數千萬元天使資金。
彼時,與云廠商解決如何面對上百萬臺標準的、規范的、高性能的服務器互聯互通,形成大的云計算能力不同,PPIO的挑戰在于,整合企業側的算力閑置空間,要在非標、異構和碎片的基礎設施之上,建立一套可靠的商業服務。
為此,在二次創業的前三年,團隊一直在云原生上攻克并實現技術上的“金剛鉆”,包括自動化的運維、利用網絡能力將上千個機房互聯互通、以及基于云原生的標準來進行邊緣云原生的K8S的研發和架構的精簡,由此來實現更加實時的彈性調度。
2019年公司推出了“派歐邊緣云產品”,隨后形成了邊緣CDN、邊緣計算和邊緣渲染的產品矩陣,并在2020年陸續簽下了愛奇藝、騰訊云、百度云等標桿客戶。
截至目前,其資源節點覆蓋了國內外1200多個城市及地區,現有3500+全球分布式算力節點,支撐每一天的用戶訪問量達2億到3億次,客戶已包括眾多全國前20名的互聯網企業。
據姚欣透露,過去5年,邊緣云業務經歷了迅猛發展,已經實現盈利。
以“三層”推理云服務,做“算力版滴滴”
行至2024年,在大模型時代帶來生成式AI后,PPIO派歐云也有了新故事。
算力大爆發下,AI面臨著成本上的使用挑戰已成不爭的事實。
姚欣做了一組假設,全球70億人口只有10億用戶每天使用人工智能(ChatGPT),每天消耗7000個Token,假設7000個Token費用乘以一年,僅是服務10億用戶,就需要750億美金用于推理對話,這還只是推理對話使用,相當于40座哈利法塔(世界第一樓)的建造成本,一年時間就燒完了。
這意味著,當模型訓練出來讓上億用戶使用時,要使用的推理消耗會更大幅度地消耗,而這種消耗高速增長,就必須實現算力成本數量級的下降。
同時,姚欣也看到中國算力有著算力需求區域跟能源最有優勢的區域不一致、獨立重復建設以及硬件梯次利用不足的三大難題,亟待解決。
而這些問題,就推動著PPIO在過去兩年開始,從邊緣云擴展到算力云,與大客戶攜手做了一系列的嘗試,以期以分布式算力網絡把碎片化、非標、異構的資源在大模型時代被有效充分地使用。
譬如,聯合多家運營商來去進行資源的內部充分調用和使用,PPIO通過把技術部署在運營商系統內,來讓內部的GPU進行資源化和池化來充分使用,同時將不同年代的卡型混合調用,解決一系列的充分利用問題,來實現算力的梯次利用。
去年,百川智能還成為了PPIO算力云產品的首家大模型服務客戶,由PPIO助力其大規模AI推理。
諸此種種努力,為PPIO構建了AI時代技術的積累和能力的提升,也隨之形成了姚欣所說的“利用分布式云的優勢,三年實現千倍降本,以算力普惠推動 AI 普惠”的算力云產品矩陣。
據PPIO派歐云聯合創始人兼CTO王聞宇表示,算力云產品為開發者提供推理云服務,一共分三個層面:一是“毛坯層”GPU Instance(GPU容器實例),二是“簡裝層”Serverless云原生體系,三是“精裝層”,為初創開發者提供的大模型AI服務,直接基于API的一站式使用。
而這三層有不同的開發邏輯,分別服務大中小型企業。
在GPU Instance上,內置無縫集成尖端技術推理加速引擎(PPInfer),通過一系列自研推理加速算法,使大語言模型(LLM)推理性能提升10倍。適合可投入巨大工作量的大公司,而開發者只用為此負擔算力所消耗的成本。
不過,值得注意的是,“毛坯”意味著什么都需要自己搭建,使用者要面臨大量的IP一臺臺部署應用、為閑置算力進行付費,以及搭建一堆服務部署各種環境等痛點,所以在這層之上,算力云發布了“簡裝層”Serverless產品。
在Auto Scaling、沙盒化的虛擬環境這兩大核心技術支撐下,專為AI推理場景設計的Serverless產品具備彈性伸縮、免運維的特性,幫助開發者在保持開發情況下依然可以享受快速云原生的服務,從而幫助企業實現降本增效。
再往上,便是場景覆蓋較多、操作最簡單的算力云產品矩陣中最上層,Model-API。
這一層中,支持AIGC應用開發所需的全模態 API,由智譜AI、百川智能、通義千問等大模型合作提供,開發者無需精通機器學習、只要調撥API 5到10分鐘即可快速部署和調用大模型功能,主要服務長尾的中小型開發者,應對電商做圖、游戲設計、自動化營銷客服、數字人等不同場景應用。
王聞宇透露,基于PPInfer的推理引擎+基于Serverless云原生的技術能力,再結合PPIO算力云自身充分使用梯度顯卡和發電的能力,綜合下來,Model API服務不僅顯著提升了AI應用的開發效率,還通過按需付費模式給開發者做到“極致性價比”。
PPIO派歐云聯創兼CTO 王聞宇
據悉,價格方面,GLM-4的 Model API 費用達到每1億(100M)Token價格達0.5元,從而以低價格來顯著提升AI應用的開發效率,并有效降低企業開發和運營成本。
于推理算力而言,姚欣認為,PPIO做的是整合者和搬運者,是算力“最后一公里”的“滴滴”,也是“貨拉拉”。
“算力云是基于供需不匹配,算力、甚至IT資源的閑置這一長期且持續存在的現象出發,整合企業側閑置的、碎片化的能力和算力,然后去承載各種各樣不同的服務和應用,可以理解為既拉人、也拉貨。”
姚欣坦言,目前算力云產品矩陣剛面世,其商業化才剛剛開始,根據TIRIAS research的研究,從未來算力構成來看,95%是推理算力,5%是訓練算力,但這95%也不會出現一家獨大局面。
“未來兩、三年內,我們有望看到大模型逐漸走向集中化和標準化,在這其中,異構推理算力硬件環境將會呈現‘百花齊放’狀態,針對不同的場景,不同的領域,有不同的解決方案,不同的卡去解決它。對于未來三年AI推理成本下降100倍、1000倍的過程預測,我們是非常樂觀的。”
左為PPIO派歐云創始人兼CEO 姚欣,右為金海教授
值得注意的是,此次會上,PPIO派歐云宣布聘請華中科技大學教授、長江學者特聘教授、中國計算機學會副理事長金海教授擔任公司技術委員會主席,而金海教授早在2002年就開始負責中國教育網的網格計算建設,也是2007年第一批從事虛擬化和云計算研究的科研專家,是中國分布式計算領域的領軍人物。
他曾是姚欣創業的引路人,而這一次,金海教授也將為公司技術團隊提供深入全面的指導,將分布式云技術邊界進一步拓展,推動更多應用的落地,讓更多創業者輕裝上陣。
天眼查顯示,PPIO派歐云截至今日已完成3輪融資,融資金額超4億元,資方名單包括藍馳創投、張江科投、創世伙伴等知名VC。
而隨著CEO姚欣、CTO王聞宇、首席科學家王曉飛,以及剛特聘的技術委員會主席金海教授吹響華科大逐鹿推理算力的號角,賽道勢必將燃起新的硝煙。