巖山科技在垂直場景找“模”解,攜子公司角逐“百模大戰”
2023,百模大戰一觸即發。
各類大模型產品爭相涌現,不僅有阿里百度等大廠帶頭角逐通用大模型,美團創始人王興、光年之外創始人王慧文、智譜AI創始人唐杰、搜狗&百川智能創始人王小川等大佬更是以創業勢頭猛進。
近期,國產大模型更是迎來了集體突圍。
阿里“通義千問2.0”以參數規模達千億級加速追趕GPT-4;成立僅數月的百川智能半年內發布了7版大模型,中英文表現超過Llama2。昆侖萬維宣布開源百億級大語言模型“天工”系列,在同等規模模型中展現出最佳效果。
隨著這場從年初打到年尾的“百模大戰”趨于白熱化,更多人開始有了新的疑問:我們真的需要這么多“模”嗎?如此高投入,能讓模型提供方行至盈利嗎?而接入模型的企業到底能從“模”中受益多少?
或許,答案就藏于“模”在垂直場景應用的實操中。
前百度工程師二次創業,給垂直場景應用找“模”解
在垂直場景應用這一練兵場,打造標桿形成行業示范,成為各路玩家新的突圍方向,巖芯數智也是其中之一。
在中國科學技術大學研究生就讀期間,機器學習領域科班出身的劉凡平在微軟完成了畢業論文的撰寫,并在國內外計算機眾多賽事中獲得獎項。后來懷揣著對機器學習濃厚的興趣,他便在百度以工程師的身份從事起了相關工作。
這期間,他兩次出走創業。
第一次是奔赴深度學習,第二次便是去年年初對大模型的擁抱。
從事搜索技術研究的劉凡平,一直認為搜索應該是所搜即所得,而不是所謂的給一堆網頁。在看到這一行業痛點后,他認為現有技術足以解決這個問題,也值得其再做一次創業嘗試。
在擔任百度資深工程師、二三四五(巖山科技前身)算法總監時,劉凡平一直深入研究深度學習技術,自主設計各類模型,并落地應用,作為發明人申請人工智能技術相關專利20 余項。
但是,在以解決業務實際問題為導向的實踐中,銀行客戶的一句“能用,但不夠好”的反饋讓劉凡平意識到,對于垂直行業場景來說,通用大模型不算一個足夠好的“模”法。
為了深入客戶業務,劉凡平帶著團隊在接下來的一周直接到客戶辦公室一起辦公。在了解了他們的工作模式,以及他們如何應用現有系統后,劉凡平發現,當前行業尤其是通用的大模型,面臨著算力成本高的挑戰,雖有很強的通用任務能力,卻不足以解決眾多企業的具體問題。
這就反向要求模型提供方去從融合企業數據及業務去構建超大型的產業場景,才會使AI大模型落地垂直行業,發揮出更大的價值。但是,垂直行業模型從研發到落地,耗時耗力,這些“苦活、累活”并不受大多數大模型廠商所待見。
但這些活卻是劉凡平認為要做好垂直行業模型這一解決方案的關鍵,也是大模型應用落地的最后一公里。
“客戶只關心問題能不能解決和優化,是不是通過大模型做到并不重要。很多廠商銷售的是MaaS平臺,但如果不深入具體的某一場景,梳理業務發展的需求或問題,就不能給到客戶所要的MaaS平臺背后的產品和服務。在給客戶業務需求提供解決方案的過程中,大模型只是解決方案中的一環。”
在一線充分認識到企業信息化、數字化建設的迫切需求,劉凡平快速改進了之前的通用方案,從客戶實際業務和案例去構建產品原型,從原有的AI通用大模型衍生到銀行業的任務模型,實現了垂直行業模型的快速落地。
從實踐中檢驗并迭代大模型的能力,在劉凡平看來,并不是單點,而是一個生態鏈構建的過程。
“從事大模型行業不僅要建構大模型,還要提供整套解決方案。雖然這樣一來,在接觸一個新行業時,對模型提供方來說成本會比較高,但一旦接觸好了,后期成本就會大大降低,客戶也更易接受、更好適用。”
他強調,科技類的基礎創新和應用的確是一個慢工出細活的過程,只是單純的做Transformer架構的復制者沒有意義,行業大模型的設計核心是圍繞業務進行數據和模型的構建,以及應用服務的構建。
“從這個角度講,巖芯更多是和客戶作為一個共同體在垂直行業建模,這是彼此的相輔相成。”
“可控可信”+“高性價比”,成行業數智化解法
事實上,雖然現在“百模大戰”打得火熱,但問題也很顯而易見,即不可避免陷入“一本正經的胡說八道”的幻覺問題。
劉凡平坦言,Transformer架構底層設計邏輯決定了對訓練數據量的要求極大,幻覺問題包括訓練的資源消耗已成行業通病,導致用戶對大多數模型的輸出結果產生了“好像能相信,但又不可信”的感受。
“幻覺”其實也是大模型的智能體現,但是對于大模型已學習過的知識,希望能夠按照已學習過的內容客觀表達,而為了避免無效的大模型幻覺,讓模型輸出結果更可控可信,實現大模型助力行業數字化和智能化的升級轉型,巖芯數智在數據質量管理和算法創新上花了大功夫,提出了基于記憶和邏輯的大模型建設思路。
首先在數據層面,巖芯數智的數據在保證安全可用的情況下,選擇來自互聯網公開的數據、專業領域的數據,以及其他授權數據。
前面的兩方面數據是為打造垂直領域的行業模型,而企業客戶所提供的數據則用于為了更好優化模型,使其輸出結果更符合目標企業的需求。
在技術創新側,巖芯數智則是通過自研Transformer架構的大模型和非Trasformer架構的大模型來根據客戶實際情況進行調度,通過對模型的不斷迭代完善模型效率及應用體驗。
從去年開始,巖芯數智就通過對第二代Transformer架構模型的自主改進,大幅提升了模型性能。
在第三次迭代中,巖芯從零開始訓練并建構了非Transformer底層架構的大模型,即記憶邏輯模型,通過無監督學習直接對數據學習,再通過微調的方式得到結果,強化模型記憶能力,使其在訓練效率、推理效率以及應用效果層面都得到很大的提升,可有效降低幻覺對應用效果的影響。
劉凡平表示,技術創新及對優質數據的精選二者結合促成了模型的“可控可信”,在決策時可通過參考內容提供并追溯信息源,可準確判定生成內容的安全性,可預測輸出結果的價值并預判非安全行為的發生,能夠在實現多樣性輸出的同時,保障輸出結果的相對公平性和包容性。
同時,巖芯數智的記憶邏輯模型由于大模型成本和訓練效率在服務器比別人少、算力成本可降至30%~40%的情況下,仍能達到較好的效果,從一定成本上使其解決方案更為降本。
“可控可信”+“高性價比”,恰好是行業所亟需的數智化解法。
劉凡平依稀記得,在為一家企業客戶介紹完巖芯垂直大模型后,就要求巖芯“立刻”幫其解決自動化管理數據的難題,甚至希望公司能立即派人前往支持。
“這是一種由強烈需求激發出來的動作。智能化管理數據過程不能出任何差錯,智能化程度越高,專業度也會更高,對模型要求也會更高。得知巖芯數智可控可信的大模型能夠幫助他解決這一塊問題后,他就希望能趕緊接入。”
雖然這家企業也同時溝通了多家大模型提供方,但最后還是選擇了巖芯。據悉,不到一個月時間,巖芯數智就針對其業務提供了基于大模型的自動化數據管理方案。
劉凡平透露,通過巖芯的垂直行業大模型,能夠為企業降低近約30%的成本投入。
深入業務打通“最后一公里”,縱向做深、橫向拓寬
據介紹,巖芯為企業提供的模型解決方案有兩種。
一種是客戶可以直接接入巖芯的垂直行業模型,但這就需要企業有自研能力,包括信息化部門、運維團隊等,門檻相對較高。
另一種則是由巖芯提供一套深入客戶業務的大模型解決方案,主要針對制造業等信息化程度較低的傳統行業,以及對迫切的生產力變革有著極大訴求的中小企業,需要模型提供方提供更多支持。
相較于前者,后者的深入業務過程和私有化部署在劉凡平看來,意味著巖芯扛下了“所有累活”,為企業打通了模型應用落地的最后一公里。
劉凡平坦言,如果僅僅在通用大模型的基礎上,利用行業數據進行微調,最終的應用效果其實并不足以滿足用戶的實際需求。但如果在通用數據的基礎上,再加上行業的專業數據以及業務數量進行預訓練,即通過企業的私有化數據對模型進行預訓練,那就會用更專業的數據產生更專業的智能涌現現象。
值得注意的是,私有化升級在早期也面臨著數據安全問題。
針對此,劉凡平也給出了巖芯數智的解法。一是客戶可以通過少量數據提供,結合巖芯現有數據,在私有云上進行訓練;二是可以基于巖芯建立的垂直行業大模型,改進算法后在客戶的機器上進行訓練。如此一來,巖芯無需翻閱數據,客戶只需將數據放在指定目錄下,啟動模型訓練指令,即可在客戶方進行模型訓練,完成一個內部的私有化升級。
據介紹,巖芯大模型通過實現私有化部署,可以將客戶內部權限及模型大腦打通,以實現安全的權限管理,以提供豐富的企業應用插件,響應企業內部的多元需求,輔助大模型的落地應用,并且這些插件通用,比如搜索引擎、天氣、股市等插件,或報銷流程、請假插件等,滿足客戶的廣泛需求,把模型的能力賦能到企業內部的流程工具當中,以提升生產效率。
據悉,從今年6月開始,巖芯數智的垂直行業大模型就開始商業化,并率先應用于對降本增效訴求較為強烈的金融和制造業,合作了數家案例。
其中,巖芯數智與郵儲銀行合作成立了國內最早一批銀企聯動AIGC項目,針對組織架構、硬件保障、軟件創新等方面進行了重點部署,著重滿足銀行業務對內容專業性、嚴謹性、可解釋性、合規性、數據安全性等要求。雙方也將持續深化技術探索與產業投研建設,逐步實現投產落地與產業升級。
“通過深耕垂類場景,巖芯數智希望構建實現 ‘1個MaaS平臺,多種應用場景策略’,為行業開發可信賴的、高性能的垂類模型。未來在15-30天內即能完成對一個企業客戶的私域模型部署。”
角逐百模大戰,一家創企能有多少制勝點?
回歸商業本質,隨著百模大戰開啟、大廠頭部效應顯著,價格戰不可避免,如此來看,給創企留下的盈利空間似乎不多。
以始為終來看,巖芯數智也做從兩個維度做了準備。
一方面,是“往前多邁一步”的技術創新。在劉凡平看來,無論是企業或產品,一定要領先行業才能收獲更多機會。
“目前國內大部分用開源模型進行微調的產品,其實真正具備自研能力的模型并不多,前者很可能在后面商業化的浪潮中受到很大的影響,而巖芯大模型具有自主知識產權,可以對模型進行深度改造及深度的業務適配,擁有對模型底層的構建把控能力。”
據悉,巖芯數智新一代模型已開始布局多模態的實時人機交互系統,通過多種感知方式完善自主認知及控制能力。
另一方面,構建企業級AI差異化優勢的關鍵,是要根據客戶的特定需求來定制和調整技術,巖芯也會通過服務客戶、融入業務來構建更深的行業壁壘。
“垂直行業大模型需要根據行業屬性提供場景化服務,而行業數據的累積對于AIGC和大模型具有壁壘價值。在訓練語料方面,除常規的涵蓋該領域的專業知識和術語外,定制的模型還將包含特定領域的實際案例和數據、專家的經驗和見解等,以適應不同垂直領域特定的語言風格和表達方式。”
隨著由ChatGPT掀起的大模型浪潮從通用領域席卷垂直領域,政務、公共安全、醫療、金融、健康、制造業等領域都在開發專用垂直細分賽道的大模型產品,加速AI應用的場景化落地進程,A股上市公司也紛紛成為玩家中的主力軍。
譬如巖芯數智背靠的巖山科技,近年來也全面擁抱人工智能,已在人工智能領域的智能駕駛、類腦智能、AIGC等新興領域進行了布局。巖芯數智的成立,既代表著老牌互聯網公司角逐新時代的決心,也意味著這波大模型的廝殺已從上半場的自研走入下半場的卷資源、卷落地的商業化篇章。
大浪淘沙之下,實踐檢驗真理的時刻或許到了。