小冰CEO李笛:數字人的未來是混合模型
今年以來,大模型掀起熱潮,沉寂許久的人工智能再一次令所有人興奮起來。尤其是ChatGPT的出圈,為人工智能這把火添了新柴。
《人類簡史》中提到,智人之所以能夠成為這個星球唯一霸主,一個重要的原因是他們發(fā)展出了“虛擬”的語言。
數字人要想逼真,在語言能力上勢必要下功夫,而ChatGPT的語義理解能力相比過往的人工智能有著顯著的提升,不少人認為有大模型驅動,數字人將有變革性的發(fā)展。
而就在大模型浩浩蕩蕩而來,所有人都在加速狂奔時,小冰CEO李笛早在幾個月前提出了自己的判斷,在他看來,大模型只是揭示了一場變革的開始,但它遠遠不是變革本身。
掌舵小冰公司,相比于追求技術的酷,李笛更關注技術的實用性和穩(wěn)健性。
“大模型是驅動數字人的其中一個技術來源”
不可否認,大模型固然是好。
“在數字人領域,大模型確實可以解決過去一些沒有解決的問題。”李笛告訴獵云網,一方面,大模型涌現的能力之一是思維鏈,在一定程度上,比過去的知識圖譜做得更好,“過去,大多通過腳本讓人工智能一個步驟一個步驟地去完成一件事情,但到了大模型,它自己一定程度上有邏輯思維能力,會思考自己下一步應該做什么,這有機會讓數字人去控制更多的線上線下的場合。”
另一方面,大模型在回答問題方面,比過去的檢索模型、生成模型在質量上有巨大的提升,但盡管如此,大模型依然沒有突破到意識層面。
對于數字人而言,其交互場景往往多樣復雜,無法判斷用戶具體交互何種內容,這要求數字人需要擁有一定的通用泛化能力,而此前行業(yè)內使用的檢索模型,往往無法覆蓋長尾問題。
除此之外,李笛提到在與數字人交互時,用戶對內容的需求偏向也不同,“有時候用戶可能只是想和數字人聊天,尋求陪伴,這個時候更偏向于數字人輸出有趣的內容,而有時候用戶和數字人交互是純知識交流,這個時候需要數字人提供有用的內容。”
李笛坦言,過去“有趣”和“有用”往往無法兩全其美,只能偏重其中一方,但大模型的出現有機會讓兩者并重。
“大模型可以大量壓縮信息,在預訓練過程中,遠大于其他檢索模型所能壓縮的知識,可以做很好的預測。”
或許因為大模型的“大力出奇跡”,讓不少人對大模型產生了極大的期待,認為其將變革數字人行業(yè)。
但在李笛看來,這并不代表一個大模型可以驅動數字人的一切,他對大模型在數字人領域的應用視為是驅動數字人的其中一個技術來源。
“大模型技術很酷,但并不穩(wěn)”
事實上,李笛比國內平均早一年接觸到ChatGPT,在國內數字人廠商狂熱追逐大模型之時,李笛已經看到了大模型的問題所在。
李笛談到:“大模型的本質仍是回答問題,但是人與人之間是互相激發(fā),也并不一定要回答問題,要想讓數字人像人,一定不能只是一個答疑者。”
此外,李笛還談到,人在交互過程中是多模態(tài)交互。“雖然大模型也向多模態(tài)方向發(fā)展,但是這種多模態(tài)和數字人的多模態(tài)存在差別。大模型的多模態(tài)往往是同時處理多種模態(tài),并把多種模態(tài)視為一個模態(tài)。而數字人的多模態(tài)是指,表情、聲音、動作、語義彼此之間達成高度協(xié)調統(tǒng)一。”
大模型的交互速度也是數字人廠商不可忽視的維度。
在不同場景下,人對交互速度有著不同的標準,而數字人不論是直播還是對話,都偏向交流性場景,在數字人行業(yè)里有一句話,數字人的一大美德是“秒回”。
但目前大模型的交互速度仍需要幾秒鐘,還不能達到“秒回”的美德。如果通過堆分布式服務器提升交互速度,其成本又將進一步提高。
拋開大模型在數字人場景下的局限性不談,就大模型技術本身而言,李笛認為大模型像學日語,“入門簡單,但越往后越難。”
“大模型拉低了準入門檻,只要參數規(guī)模提高,效果會很明顯,但是這個效果是粗暴的,很難有潛能。”原因在于目前,大模型涌現能力機制尚不明朗,難以預判訓練效果,也難以做調優(yōu)工作。
在李笛看來,至少到明年一季度之前,大模型技術仍處在新技術劇烈震蕩階段,在探明技術機制之前,李笛不敢貿然應用在產品上。
對此,李笛用了一個任天堂的類比,“作為游戲機主機商,索尼和微軟追求機能,往往應用最先進的機能,而任天堂則選擇榨干成熟技術,在其他公司將畫質推進到4K時,任天堂在1080P、720P這些成熟的分辨率上思考如何把已有硬件性能推進到極致。”
在“酷”和“穩(wěn)健”的選擇中,李笛選擇了“任天堂”式的穩(wěn)健。
在別人追求龐大參數規(guī)模的大模型,展現出何種力量時,李笛更關心,在大量的并發(fā)使用過程中,大模型技術能穩(wěn)定在什么狀態(tài),以及他需要盡可能地了解和可控這個新技術。
“數字人的未來是混合模型”
李笛坦言,當下大參數模型確實通用能力更強,但一味追求大參數模型,沒有未來,尤其是參數規(guī)模越大,同質化越嚴重。
去年年底,李笛就提出了小冰認為的未來是混合模型的觀點。但彼時,一味追求大模型的聲音仍然居多,到現在,混合模型逐漸被更多人認可。
OpenAI 原董事霍夫曼也認為“其實GPT 1/ 20 規(guī)模的參數模型效果反而是最好的。”
事實上,從2019年開始,小冰就已經在做不同規(guī)模的模型訓練和調優(yōu),有的模型只負責思考,有的模型只負責生成。目前,小冰框架內有近1000個大中小模型有機組合在一起共同支撐數字人運轉。
相比于用一個大模型驅動數字人而言,混合模型在成本上有著極大的優(yōu)勢。而成本是商業(yè)化落地重要的考量。
“首先,模型參數規(guī)模降低,其基本運算也隨之降低,其次,小冰在技術上做了調優(yōu),將其成本降低至一輪交互0.5厘,接近檢索模型0.3厘的成本,而大模型一輪交互至少需要幾毛錢。”
此外,混合模型可以運行于最廉價的T4 GPU,而無需A100等高端芯片,甚至神經網絡渲染部分,可以不用運行于GPU,而是運行于CPU,“這個對應到的成本差距,大概從每分鐘幾塊錢,或者說每小時幾十塊錢,到每天幾毛錢的區(qū)別,可以說成本幾乎為0。”
與此同時,李笛告訴獵云網,混合模型在交互速度可以做到幾十到幾百毫秒,遠快于目前大模型幾秒鐘的交互速度。
更為重要的是,混合模型在經過小冰團隊長期驗證后,已確保技術安全邊界已知。5月小冰公司發(fā)布的"GPT克隆人計劃"運用的就是這套混合模型方案。
但不可否認的是,以大模型為標志,世界開始進入到更快的技術迭代周期,正如李笛所說:“大模型揭示了一場新的變革。”