百度:今年是文心大模型落地關鍵年

        獵云網黎曼2022-04-27 17:26 大公司
        大模型的出現,大幅度降低了行業應用的門檻。

        一項新的AI技術迎來突破,包括谷歌、微軟、英偉達、百度和阿里等在內的幾乎所有AI頭部企業都在死磕這項技術。

        這便是目前世界AI研究領域最熱門的話題之一:“大模型”。

        AI 技術發展到今天,GPT-3等參數量巨大的模型被人們開發出來,他們在計算機視覺和自然語言處理等領域取得了前所未有的成就。

        與之相伴而來的是,隨著技術與產業的結合落地,新的技術難關需要被不斷攻克。

        眾所周知,AI 技術的驅動力主要是依靠數據作為養料,當AI嵌入各行各業,不同場景的巨量數據已呈井噴式爆發,如何減少數據標注量、如何提高開發效率、降低應用成本等問題已成為一眾AI企業正在思考的問題。而這也已經成為了各大AI企業搶占技術高地、并進行商業化的關鍵命題。


        大模型是人工智能大基礎設施的重要組成


        “文心大模型”是百度近幾年在花大力氣投入研發的技術基礎設施。

        自2019年開始,百度深耕預訓練模型研發,并在該年3月率先發布中國首個正式開放的預訓練模型ERNIE1.0。去年12月,百度聯合鵬城實驗室發布了鵬城-百度·文心大模型。

        來源:企業供圖

        這是全球首個知識增強千億大模型,也目前全球最大中文單體模型,參數規模達到2600億。

        “文心大模型在百度AI戰略里的位置,是人工智能大基礎設施的一部分。大基礎設施就是硬件到芯片到AI框架、AI大模型,一層層構筑起來的,文心是底座性質的。”百度集團副總裁吳甜介紹。

        如何理解這個AI大模型?

        AI大模型,指的其實是預訓練大模型,是機器學習的一種方式。

        類比人的學習來看,人的學習可以分成通識教育和專業教育兩段。預訓練大模型相當于解決機器學習的通識教育。

        此前,機器學習主要通過標注數據,告訴算法哪個數據是正負樣本等進行學習。由于人工智能落地場景很多,每個場景都要采數據、標數據,因此在標注的數量和質量上存在很大的瓶頸。

        為解決以上問題,自然語言處理領域迎來了一個新的突破:自監督學習。其指的是不用人為標注數據,機器可以用一個方法把知識和規律學出來。

        比如,在模型訓練中,如果我們把“中國的首都是北京這句話”中的“北京”蓋住,讓模型去猜中國的首都是哪里,模型可能會猜一個城市,再把蓋的地方翻開,告訴模型是對了還是錯了,模型也就得到了反饋。這就是自監督學習的其中一種方法。

        通過設計類似的學習方式,讓模型可以在海量的數據當中進行自監督學習。這個機制的好處就是,它可以把天然存在的大量數據利用起來,打破了一定要精標數據才能學習的瓶頸。

        大模型的出現,實際大幅度降低了行業應用的門檻。

        “大模型不僅可以自己直接商業化,更有可能作為大的基礎設施帶來的更大的價值空間。”吳甜稱。

        來源:企業供圖

        百度的文心大模型是如何運營的?

        百度早已不僅是搜索巨頭,更是一家人工智能公司,文心大模型已經在搜索、信息流、小度智能屏、百度地圖等業務場景中不斷地去使用、驗證、迭代,最終通過開發出配套的工具和平臺服務于不同產業,開發者或者企業就可以用方便、簡單的做法,甚至可以不寫代碼就使用起來。

        在落地運用方面,除了應用于百度內部的各類產品外,文心大模型還通過飛槳開源開放平臺、百度智能云等賦能到工業、能源、金融、通信等行業。當前,百度飛槳系列有兩款面向不同人群的平臺,一是零門檻平臺EasyDL,二是全功能產業平臺BML,都已經內嵌了文心以及文心相應的配套算法。

        在交付形態上,文心大模型大致上包含三種:第一種是通過API調用方式使用。第二種方式是通過平臺、套嵌工具等,使用者可以在EasyDL、BML等平臺上直接使用的。第三種是包含在一些面向場景的產品中,比如智能文檔分析TextMind,還有智能創作平臺。

        就AI大模型這個技術而言,不僅能落地解決當前的產業遇到的難題,在未來同樣充滿想象空間。

        吳甜暢想道,今天的模型是以學習人類的經驗為主的,學人形成的規律,加強人類建設的一系列體系。未來有可能AI可以學到一些人類還沒有學到的一些經驗或者知識,這是未來有可能發生的事情。


        今年是文心大模型落地關鍵年


        在大模型領域角逐的,不僅有百度,國內外科技巨頭如谷歌、微軟、英偉達、阿里等,都相繼在AI大模型領域展開探索,參數規模從百億、到千億,甚至是上萬億。

        對于當下的大模型競賽,吳甜表示,大模型本身還有很多創新空間,現在大家還是在各種不同角度的創新階段,每一家企業和機構最后會產生的價值和作用,因此各自有所側重。

        百度文心大模型的定位是產業級知識增強大模型。吳甜介紹,文心大模型最大的特點是“知識增強”。

        傳統大模型只從海量的文本中學習,只能死記硬背文本的規律,并不能從本質上理解世界是怎樣運行的,在具體應用時,一些涉及邏輯推理和認知的任務表現較差。為彌補這一缺點,百度引入了知識圖譜,通過“知識增強”的方法,將數據與知識融合,提升了文心大模型的通用性。

        此外,要理解文心大模型,就需要了解“產業級”的定義。吳甜解釋,這個產業級主要指兩個方面:

        一方面,文心的整個技術是在實際的產業應用過程中打造。首先,它的數據來源是產業當中的數據,學習到大量的知識規律,也是在實際的產業實踐當中學習到的;任務設計上,百度希望把大模型打造成通用的底座模型,類比人的通識教育,希望它學的盡可能廣泛,打下更好的基礎。

        另一方面,文心大模型在應用時建設了一系列配套能力,讓行業更好用。比如怎樣設計數據的標注、建議有多少數據、相應的遷移學習的方法等等。通過這些配套的工具和平臺,就會提升真實應用的可行性。

        大模型能夠引起各大企業的競相追逐,戰略眼光更著眼于遠處。從世界以及國家層面來看,產業智能化升級早已是大勢所趨。今年1月,國家出臺了十四五數字經濟發展規劃,可以看到國家對于數字經濟發展重視程度也越來越高。大模型對于推動數字經濟發展有著莫大幫助。

        要在產業中應用起來,當前大模型還面臨著不小的挑戰。吳甜認為,當前部分行業數字化水平還不高,AI真正跟各行各業、各種企業場景結合的時候,復雜度高。場景分散,而且很多場景還比較薄,很多時候獲取場景數據非常困難。

        另外,參數規模提升確實是有更好的效果,但卻不是簡單的越大越好,更重要的還是模型能力強。

        文心大模型的下一步,是繼續創新技術水平,再增強其實用性。吳甜強調,這并不是以迅速獲得更大的模型為目標,而是做出一款模型之后,在落地應用中檢驗效果,并在實用的過程當中調整模型設計。

        在文心大模型的規劃上,百度今年還會有新技術和模型發布,包含模型能力和平臺工具能力的提升。“今年會是文心大模型產業落地關鍵年。 ”

        當前,文心大模型通過飛槳開源開放平臺、百度智能云等平臺落地,個人、企業開發者數量超6萬,并帶來顯著的提升效果。如在保險領域的文本處理效率提升30倍,醫療領域中的每份病歷的檢查時間從30分鐘縮短到了秒級別。

        百度還把百文心大模型能力開放給公眾使用,并舉辦了認知AI創意賽。“人工智能和大模型要面向公眾開放,只有門檻低到了所有人都可方便地用起來,才能真正大規模爆發出各種創意。”吳甜表示。

        【本文為合作媒體授權博望財經轉載,文章版權歸原作者及原出處所有。文章系作者個人觀點,不代表博望財經立場,轉載請聯系原作者及原出處獲得授權。有任何疑問都請聯系(聯系(微信公眾號ID:AppleiTree)。免責聲明:本網站所有文章僅作為資訊傳播使用,既不代表任何觀點導向,也不構成任何投資建議。】

        猜你喜歡

        亚洲成a人不卡在线观看| 内射干少妇亚洲69XXX| 亚洲日本va在线观看| 亚洲第一二三四区| 色噜噜综合亚洲av中文无码| 亚洲色图国产精品| 亚洲91av视频| 亚洲网址在线观看你懂的| 色拍自拍亚洲综合图区| 久久精品蜜芽亚洲国产AV| 亚洲网红精品大秀在线观看| 亚洲激情黄色小说| 亚洲一区在线视频观看| 亚洲免费福利在线视频| 亚洲综合一区二区三区四区五区 | 久久久久亚洲AV成人网人人网站| 亚洲精品无码久久久久AV麻豆| 深夜国产福利99亚洲视频| 亚洲av无码乱码在线观看野外| 亚洲Av无码国产情品久久| 亚洲日本中文字幕一区二区三区| 狠狠色婷婷狠狠狠亚洲综合 | 亚洲黄色网址大全| 亚洲免费在线观看视频| 亚洲一区精彩视频| 亚洲国产欧美国产综合一区| 国产精品成人亚洲| 久久99亚洲综合精品首页| 亚洲精品无码永久在线观看你懂的 | 国产精品手机在线亚洲| 亚洲无线一二三四区手机| 亚洲日韩精品一区二区三区无码 | 国产亚洲精品a在线无码| 久久久亚洲精品国产| 久久亚洲精品无码VA大香大香| 亚洲国产日产无码精品| 亚洲熟妇自偷自拍另欧美| mm1313亚洲精品无码又大又粗 | 亚洲人成在线精品| 亚洲AV色无码乱码在线观看| 亚洲国产成人久久综合野外|