ChatGPT拯救月薪5000的數據打工人
北京時間3月15日凌晨,OpenAI正式推出大型多模態語言模型GPT-4——也就是ChatGPT所基于的GPT-3.5的迭代版本。
GPT-4的發布正好趕在百度語言大模型“文心一言”發布的前一天。壓力,再一次給到正加班加點鏖戰“中國版ChatGPT”的各家大廠這邊。
GPT-4最為亮眼的革新莫過于支持“多模態”輸入,也就是相比于ChatGPT(基于GPT-3.5)僅能文字輸入和文字輸出,GPT-4還支持圖片、文字輸入——換句話說,它看得懂表情包和梗圖。
此外,根據 OpenAI公布的研究數據,GPT-4不僅在各項性能表現上均優于GPT-3.5模型,在一系列人類測試中也表現出了更強的能力,其中包括“難倒”萬千大學生的高等數學(微積分)、統一律師資格考試、美國高考(SAT)數學……
目前,OpenAI發布了集成GPT-4的ChatGPT Plus,用戶可以以每月20美元的訂閱標準搶先試用。不過,ChatGPT Plus暫時還未開啟圖像輸入功能。
OpenAI并未公布GPT-4用于訓練的數據規模,但考慮到前代模型ChatGPT(基于GPT-3.5模型)使用了1750億個參數,業界估算GPT-4使用的參數規?;蜻_到100萬億級別。
而在幾年前,這是不可想象的。
ChatGPT萬億參數背后
全球頂級人工智能(AI)科學家、斯坦福大學終身教授、曾任谷歌首席AI科學家的李飛飛分享過一個故事:
2009年之前,AI圖像識別模型僅能認出四種物體:汽車、飛機、豹子、人臉,因為以往研究者一般只會針對這四類物體進行模型訓練。
更深層次的原因是,想讓AI認識一種物體,需要人工先在圖片中標記出目標物,再將大量這樣的圖片“喂”給AI進行訓練。“有多少人工,就有多少智能”,AI能力越強,背后要付出的人力越多。
因此李飛飛設想,如果人工標注足夠多的圖片并用以訓練,理論上就能夠得到“無所不知”的模型。
這堪稱一個瘋狂的想法,如果想讓AI識別出字典上的所有物體,需要標注的圖片數量達上億張,李飛飛的3人課題組要不眠不休干幾十年才能完成。
最后,李飛飛不得不通過眾包平臺發布任務,低價雇傭全球各地的勞動力完成標注任務——可想而知,大部分標注工來自更具人口紅利的國家和地區。
這是全球最知名大型視覺數據庫ImageNet背后的故事,也是“三院院士”“AI女神”李飛飛的成名之戰。ImageNet滋養了全球各地大大小小的AI項目,但也揭示了AI數據處理環節是勞動力密集產業的事實。
從那之后,資金涌入各類AI模型創業領域,相比之下AI數據環節則少有人問津。
不過十余年之后,當曾經夢想的“無所不知的模型”真正誕生,情形似乎開始發生變化。
美國研究機構OpenAI發布的大語言模型ChatGPT,被視為揭示了AI行業新的發展方向,也帶動各路資本涌入大語言模型研發。
大型模型對數據處理提出了新的玩法,也意味著全新的技術掘金空間正被打開。一二級市場中,投資熱情已經帶動著相關企業的估值高漲。開年至今,A股“AI數據第一股”海天瑞聲已拉出4個漲停板。截至3月15日收盤,海天瑞聲市值已達到70.41億元。
不僅如此,據業內消息,多家大廠正在著手將數據標注團隊獨立出來。一場對AI數據服務市場的搶奪戰,正在吹響號角。
“AI數據”突然又香了
AI數據處理主要步驟包括數據收集、清洗原始數據、對數據進行標注等等。根據相關統計,數據處理往往會占據整個AI項目實施過程中80%的時間。其中最耗費時間的則是標注環節。
數據標注是指人工對文本、視頻、圖像等元數據進行標注,以此將元數據轉換為機器可以識別的信息,標記好的數據才能用于訓練AI模型。因此,數據標注常被視為“dirty work(臟活累活)”,相關工作常被委托給第三方外包企業完成。
從2022下半年開始,這項曾經不受歡迎的“dirty work”,突然獲得了前所未有的重視。
“我和團隊2017年開始創業時,很多機構還無法理解數據處理的價值,我們只能通過描述未來的愿景說服他們。之后幾年里,我們平均營收年增速在50%-100%,因為我們一開始投入在自動化算法的比例比較大,堅持難而正確的事情,所以橫向對比,沒有純粹做業務的公司跑得快。”AI數據服務企業星塵數據(北京星塵紀元智能科技有限公司)的創始人、CEO章磊告訴市界。
不過,最近情況明顯發生了變化。越來越多投資人找到星塵數據,希望能對其進行投資。
2022年12月底,星塵數據完成了5000萬元的A輪融資。據一位接近星塵數據的知情人士透露,此后仍有多家投資機構在積極接觸星塵數據,“有時候一天要接觸不止一家機構”。公司預計將在2023年中開啟下一輪融資。
一家企業面臨的際遇變化,背后是越來越多的投資人正將目光投向這一領域。
供職于一家腰部投資機構的Andy告訴市界,目前AI數據處理項目已經成為新的投資熱點,“在2017、2018年的AI融資高峰期里,如果一個項目同時滿足海歸科學家、CV(計算機視覺技術)、團隊這3點,大家都會搶著投。現如今如果把CV換成數據,大家也會搶著投?!?
所謂“搶”,體現在當Andy接觸到某個數據處理團隊時,“對方會直言近期也有別的投資方來聯系過,壓力就給到我這邊了”。
在中小型投資機構做出動作之前,頭部的資本已更早地對AI數據進行了布局,這更讓新入場的團隊和資本感受到壓力。
比如,國內“AI數據第一股”海天瑞聲曾在2017年的B輪投資中,獲得了小米集團的青睞;2018年,梅花創投現身于愛數智慧的A輪融資;2019年,數據服務平臺格物鈦完成Pre-A輪融資,紅杉中國、真格基金同臺投資……
如果說AI數據服務在一二級市場的火熱距離普通人的生活還有距離,那么產業層面的火熱則更容易被人們所感知。
近幾個月,在河南從事文本標注工作的史月,突然發現自己的職業“火”起來了,“我一直都是獨立做標注單,靠熟人組團接單。最近明顯感覺單子多了,有時候突然有熟人把我拉到一個微信群里,然后就開始發需求,問能不能接”。
在內蒙古的易暉也有同樣的感受:“甲方非常多。我一年前入行,在本地數標基地和朋友一起創業做標注團隊,一年過去我們已經發展出300人的團隊了?!苯酉聛恚讜熯€打算繼續擴充團隊:“你只有更大的團隊,才能拿到更大體量的數據包?!?
不僅如此,易暉口中的一些“甲方”已親自下場,試圖自主搭建數據標注團隊。據36氪援引業內人士信息:“目前,已經有不少AI大廠開始著手把自己AI標注的部分工作獨立出來了。”
消解勞動密集的“魔咒”
與AI數據投資熱潮分不開的,是以ChatGPT為代表的大模型的興起。
Meta首席人工智能科學家Yann LeCun評論ChatGPT稱:“(它)并不具有創新性,也不具有革命性……它只是個巧妙的組合”。
從AI的三要素算法、算力和數據角度分別來看,ChatGPT采用的核心算法Transformer最早由谷歌提出,代碼已經開源;而ChatGPT訓練過程中由英偉達芯片A100支持也早已不是秘密。在這個令人驚嘆的大模型中,唯一無形的技術壁壘只剩下數據——那多達175B個參數,一個極其高質量的數據集。
如國內AI企業OneFlow對此評論的:“算力(芯片)是自由流通的商品,花錢可以買到,工程(算法)上有開源項目和團隊,因此,對互聯網大廠之外的團隊來說,剩下最大的挑戰在于高質量訓練數據集?!?
至今,OpenAI尚未公布ChatGPT訓練用數據集的來源和具體細節。
“人工智能三要素里,數據不值錢,這是過去幾十年里大家形成的觀念,但是就像Paul Graham(硅谷知名天使投資人)說的,創業思維最吊詭的一點在于‘正確的做法和直覺往往是相悖的’?,F在全球估值最高的AI公司,恰恰是一家數據標注企業。這足以說明數據服務的價值是被低估的?!币晃煌顿Y人向市界評論道。
他提到的這家AI數據標注企業,是美國華裔創始人Alexandr Wang在2016年創辦的Scale AI。截至2021年4月宣布的一輪融資,Scale AI的估值為73億美元,公司客戶中包括OpenAI、Airbnb等知名企業或機構。
這種價值的低估不僅發生在一級市場。哪怕在許多市場參與者眼中,AI數據處理也是一個人力“內卷”的生意。
星塵數據創始人、CEO章磊分析道:“目前市場中存在最多類型的AI數據企業分為兩類,第一類是‘做生意’型的企業,也就是自己聚集一批標注人力并做中間整合、低買高賣,核心競爭力在于對甲方的商務、銷售能力;第二類是做眾包平臺,甲方可以在平臺發布任務,人力自主接單,這類平臺的核心競爭力是運營能力,要看拉新、月活、日活等數據。但這兩類企業都沒有發展算法相關的能力。”
而這兩類企業,都沒有脫離AI數據服務“勞動密集”的窠臼,但Scale AI代表的是一種不同于傳統數據標注企業人力“內卷”的全新商業路徑。盡管同樣雇傭了部分海外人力進行標注,但Scale AI更多是通過自研的自動化數據標注(auto labeling)平臺完成工作。
具體來說,Scale AI的標注工具能夠通過算法自動、快速甄別物體,通過初篩的圖片再經過外包團隊的二次篩查和標注,用人機交互的方式消解對人工的過度依賴,在海量數據的效率、成本、標注準確率之間尋找最佳平衡點。
如何讓數據有更高的價值
理想狀態下,90%的數據標注工作都可以由數據公司提供的工具來完成。但如果想要助力像ChatGPT一樣能力出眾的模型誕生,這或許還遠遠不夠。
“想要樹立獨特的競爭力,需要跟算法客戶有更加深度的綁定,思考在數據環節能夠怎么幫助前沿算法落地?!闭吕诒硎?。
數據自動化標注工具說到底也是AI算法和產品設計。而隨著技術進步,算法對數據系統的要求不僅僅是人工苦力活,更多的是自動化、算法策略,以及相匹配的數據閉環系統。例如ChatGPT中的人機閉環,就需要支持主動學習和強化學習的系統與之匹配。
這意味著要建立數據服務的壁壘,或許還需另辟蹊徑。據章磊分析,除了通過自動化標注工具來提升標注效率之外,還需要具備另外兩方面的能力:數據策略能力和數據閉環能力。
其中,前者指的是數據服務商對AI數據處理整個過程中的領悟和把控力,既涉及大量算法相關的技術,也涉及以數據為中心的反饋迭代技術,還需要服務商掌握一整套項目管理的方法論。
舉例來說,相較于此前算法客戶提出標注規則,服務商“盲目”完成任務的舊模式,未來數據服務人員能否對算法標注規則給出自己的建議,來提升算法的訓練效果?
另外據一位資深AI數據服務從業者告訴市界,據其調研,如今企業缺乏AI數據資源管理系統是常態,“此前由于缺乏數據管理意識,甚至很多科技大廠也沒有建立起AI database,創始人甚至可能不知道公司到底有多少數據資源。但是如今隨著大模型等風口降臨,許多企業都準備自研數據系統”。
但是,在短時間內想要研發出可供大模型訓練的數據系統并非易事。
因此,在這一方面提供助力,也是AI數據服務企業在“數據策略”方面發展的一大方向。章磊分析:“如今客戶需要的數據系統需要滿足兩個特點,分別是具有自動化能力、具有和算法的整合能力?!?
能否幫助客戶在繁雜的數據中快速摸索和整理出可供訓練的部分?這也考驗著服務商的數據策略能力。
而數據閉環能力,指的則是算法模型與數據集之間協同的、相互的、同期的迭代。當AI模型輸出結果出現問題時,數據服務環節可以動態感知到問題所在,并通過同步改變輸入的參數來校正訓練結果。
從這個意義而言,“數據閉環”的能力,就是模型自我快速“debug(調試)”的能力。
舉例而言,許多用戶在使用過程中發現ChatGPT在回答某些問題時出現了錯誤。而如今發布的ChatGPT并未接入互聯網,訓練數據截至2021年之前。
也就是說,ChatGPT模型與數據之間的實時聯絡被“斬斷”了,模型無法實時迭代。如果能夠打通數據閉環,這個問題就能得到解決。
▲(ChatGPT在回答某些問題時可能發生錯誤)
據章磊透露,目前國內大部分AI數據服務企業仍聚集于人力標注的低價值量環節,具備上述三方面潛力的玩家鳳毛麟角。
英特爾聯合創始人安迪·格魯夫曾在其自傳中寫道:科技發展史上有一個基本規則,即只要可能發生的事,一定會變成事實。
對許多人而言,人工標注還是AI數據處理的代名詞,但變化已在不經意之間發生。盡管離最終實現還有距離,但“自動化標注+數據策略服務+構建數據閉環”正為AI數據服務市場打開更大的想象空間。
對于國內玩家而言,唯有上溯產業價值鏈,才能在新一波的AI技術浪潮中不受蕩滌。
注:文中Andy為化名。
參考文獻:
1、《開啟人工智能時代 給AI一雙慧眼 專訪斯坦福大學人工智能實驗室主任李飛飛》,楊瀾訪談錄
2、《A Chat with Andrew on MLOps: From Model-centric to Data-centric AI》,吳恩達
3、《ChatGPT數據集之謎》,OneFlow
猜你喜歡
昆侖萬維25年一季度營收17.6億,大幅增長46%,AI業務商業化實現新突破
4月29日,昆侖萬維(300418.SZ)(以下簡稱“公司”)披露2025年第一季度業績報告