百度:今年是文心大模型落地關鍵年
一項新的AI技術迎來突破,包括谷歌、微軟、英偉達、百度和阿里等在內的幾乎所有AI頭部企業都在死磕這項技術。
這便是目前世界AI研究領域最熱門的話題之一:“大模型”。
AI 技術發展到今天,GPT-3等參數量巨大的模型被人們開發出來,他們在計算機視覺和自然語言處理等領域取得了前所未有的成就。
與之相伴而來的是,隨著技術與產業的結合落地,新的技術難關需要被不斷攻克。
眾所周知,AI 技術的驅動力主要是依靠數據作為養料,當AI嵌入各行各業,不同場景的巨量數據已呈井噴式爆發,如何減少數據標注量、如何提高開發效率、降低應用成本等問題已成為一眾AI企業正在思考的問題。而這也已經成為了各大AI企業搶占技術高地、并進行商業化的關鍵命題。
大模型是人工智能大基礎設施的重要組成
“文心大模型”是百度近幾年在花大力氣投入研發的技術基礎設施。
自2019年開始,百度深耕預訓練模型研發,并在該年3月率先發布中國首個正式開放的預訓練模型ERNIE1.0。去年12月,百度聯合鵬城實驗室發布了鵬城-百度·文心大模型。
這是全球首個知識增強千億大模型,也目前全球最大中文單體模型,參數規模達到2600億。
“文心大模型在百度AI戰略里的位置,是人工智能大基礎設施的一部分。大基礎設施就是硬件到芯片到AI框架、AI大模型,一層層構筑起來的,文心是底座性質的。”百度集團副總裁吳甜介紹。
如何理解這個AI大模型?
AI大模型,指的其實是預訓練大模型,是機器學習的一種方式。
類比人的學習來看,人的學習可以分成通識教育和專業教育兩段。預訓練大模型相當于解決機器學習的通識教育。
此前,機器學習主要通過標注數據,告訴算法哪個數據是正負樣本等進行學習。由于人工智能落地場景很多,每個場景都要采數據、標數據,因此在標注的數量和質量上存在很大的瓶頸。
為解決以上問題,自然語言處理領域迎來了一個新的突破:自監督學習。其指的是不用人為標注數據,機器可以用一個方法把知識和規律學出來。
比如,在模型訓練中,如果我們把“中國的首都是北京這句話”中的“北京”蓋住,讓模型去猜中國的首都是哪里,模型可能會猜一個城市,再把蓋的地方翻開,告訴模型是對了還是錯了,模型也就得到了反饋。這就是自監督學習的其中一種方法。
通過設計類似的學習方式,讓模型可以在海量的數據當中進行自監督學習。這個機制的好處就是,它可以把天然存在的大量數據利用起來,打破了一定要精標數據才能學習的瓶頸。
大模型的出現,實際大幅度降低了行業應用的門檻。
“大模型不僅可以自己直接商業化,更有可能作為大的基礎設施帶來的更大的價值空間。”吳甜稱。
百度的文心大模型是如何運營的?
百度早已不僅是搜索巨頭,更是一家人工智能公司,文心大模型已經在搜索、信息流、小度智能屏、百度地圖等業務場景中不斷地去使用、驗證、迭代,最終通過開發出配套的工具和平臺服務于不同產業,開發者或者企業就可以用方便、簡單的做法,甚至可以不寫代碼就使用起來。
在落地運用方面,除了應用于百度內部的各類產品外,文心大模型還通過飛槳開源開放平臺、百度智能云等賦能到工業、能源、金融、通信等行業。當前,百度飛槳系列有兩款面向不同人群的平臺,一是零門檻平臺EasyDL,二是全功能產業平臺BML,都已經內嵌了文心以及文心相應的配套算法。
在交付形態上,文心大模型大致上包含三種:第一種是通過API調用方式使用。第二種方式是通過平臺、套嵌工具等,使用者可以在EasyDL、BML等平臺上直接使用的。第三種是包含在一些面向場景的產品中,比如智能文檔分析TextMind,還有智能創作平臺。
就AI大模型這個技術而言,不僅能落地解決當前的產業遇到的難題,在未來同樣充滿想象空間。
吳甜暢想道,今天的模型是以學習人類的經驗為主的,學人形成的規律,加強人類建設的一系列體系。未來有可能AI可以學到一些人類還沒有學到的一些經驗或者知識,這是未來有可能發生的事情。
今年是文心大模型落地關鍵年
在大模型領域角逐的,不僅有百度,國內外科技巨頭如谷歌、微軟、英偉達、阿里等,都相繼在AI大模型領域展開探索,參數規模從百億、到千億,甚至是上萬億。
對于當下的大模型競賽,吳甜表示,大模型本身還有很多創新空間,現在大家還是在各種不同角度的創新階段,每一家企業和機構最后會產生的價值和作用,因此各自有所側重。
百度文心大模型的定位是產業級知識增強大模型。吳甜介紹,文心大模型最大的特點是“知識增強”。
傳統大模型只從海量的文本中學習,只能死記硬背文本的規律,并不能從本質上理解世界是怎樣運行的,在具體應用時,一些涉及邏輯推理和認知的任務表現較差。為彌補這一缺點,百度引入了知識圖譜,通過“知識增強”的方法,將數據與知識融合,提升了文心大模型的通用性。
此外,要理解文心大模型,就需要了解“產業級”的定義。吳甜解釋,這個產業級主要指兩個方面:
一方面,文心的整個技術是在實際的產業應用過程中打造。首先,它的數據來源是產業當中的數據,學習到大量的知識規律,也是在實際的產業實踐當中學習到的;任務設計上,百度希望把大模型打造成通用的底座模型,類比人的通識教育,希望它學的盡可能廣泛,打下更好的基礎。
另一方面,文心大模型在應用時建設了一系列配套能力,讓行業更好用。比如怎樣設計數據的標注、建議有多少數據、相應的遷移學習的方法等等。通過這些配套的工具和平臺,就會提升真實應用的可行性。
大模型能夠引起各大企業的競相追逐,戰略眼光更著眼于遠處。從世界以及國家層面來看,產業智能化升級早已是大勢所趨。今年1月,國家出臺了十四五數字經濟發展規劃,可以看到國家對于數字經濟發展重視程度也越來越高。大模型對于推動數字經濟發展有著莫大幫助。
要在產業中應用起來,當前大模型還面臨著不小的挑戰。吳甜認為,當前部分行業數字化水平還不高,AI真正跟各行各業、各種企業場景結合的時候,復雜度高。場景分散,而且很多場景還比較薄,很多時候獲取場景數據非常困難。
另外,參數規模提升確實是有更好的效果,但卻不是簡單的越大越好,更重要的還是模型能力強。
文心大模型的下一步,是繼續創新技術水平,再增強其實用性。吳甜強調,這并不是以迅速獲得更大的模型為目標,而是做出一款模型之后,在落地應用中檢驗效果,并在實用的過程當中調整模型設計。
在文心大模型的規劃上,百度今年還會有新技術和模型發布,包含模型能力和平臺工具能力的提升。“今年會是文心大模型產業落地關鍵年。 ”
當前,文心大模型通過飛槳開源開放平臺、百度智能云等平臺落地,個人、企業開發者數量超6萬,并帶來顯著的提升效果。如在保險領域的文本處理效率提升30倍,醫療領域中的每份病歷的檢查時間從30分鐘縮短到了秒級別。
百度還把百文心大模型能力開放給公眾使用,并舉辦了認知AI創意賽。“人工智能和大模型要面向公眾開放,只有門檻低到了所有人都可方便地用起來,才能真正大規模爆發出各種創意。”吳甜表示。