ChatGPT拯救月薪5000的數據打工人

市界觀察董溫淑2023-03-16 11:50 大公司

AI的三要素是數據、算法和算力。多年間，如果畫出一條人工智能（AI）行業的鄙視鏈，數據處理的工作一定處于底端。

北京時間3月15日凌晨，OpenAI正式推出大型多模態語言模型GPT-4——也就是ChatGPT所基于的GPT-3.5的迭代版本。

GPT-4的發布正好趕在百度語言大模型“文心一言”發布的前一天。壓力，再一次給到正加班加點鏖戰“中國版ChatGPT”的各家大廠這邊。

GPT-4最為亮眼的革新莫過于支持“多模態”輸入，也就是相比于ChatGPT（基于GPT-3.5）僅能文字輸入和文字輸出，GPT-4還支持圖片、文字輸入——換句話說，它看得懂表情包和梗圖。

此外，根據 OpenAI公布的研究數據，GPT-4不僅在各項性能表現上均優于GPT-3.5模型，在一系列人類測試中也表現出了更強的能力，其中包括“難倒”萬千大學生的高等數學（微積分）、統一律師資格考試、美國高考（SAT）數學……

目前，OpenAI發布了集成GPT-4的ChatGPT Plus，用戶可以以每月20美元的訂閱標準搶先試用。不過，ChatGPT Plus暫時還未開啟圖像輸入功能。

OpenAI并未公布GPT-4用于訓練的數據規模，但考慮到前代模型ChatGPT（基于GPT-3.5模型）使用了1750億個參數，業界估算GPT-4使用的參數規?；蜻_到100萬億級別。

而在幾年前，這是不可想象的。

ChatGPT萬億參數背后

全球頂級人工智能（AI）科學家、斯坦福大學終身教授、曾任谷歌首席AI科學家的李飛飛分享過一個故事：

2009年之前，AI圖像識別模型僅能認出四種物體：汽車、飛機、豹子、人臉，因為以往研究者一般只會針對這四類物體進行模型訓練。

更深層次的原因是，想讓AI認識一種物體，需要人工先在圖片中標記出目標物，再將大量這樣的圖片“喂”給AI進行訓練。“有多少人工，就有多少智能”，AI能力越強，背后要付出的人力越多。

因此李飛飛設想，如果人工標注足夠多的圖片并用以訓練，理論上就能夠得到“無所不知”的模型。

這堪稱一個瘋狂的想法，如果想讓AI識別出字典上的所有物體，需要標注的圖片數量達上億張，李飛飛的3人課題組要不眠不休干幾十年才能完成。

最后，李飛飛不得不通過眾包平臺發布任務，低價雇傭全球各地的勞動力完成標注任務——可想而知，大部分標注工來自更具人口紅利的國家和地區。

這是全球最知名大型視覺數據庫ImageNet背后的故事，也是“三院院士”“AI女神”李飛飛的成名之戰。ImageNet滋養了全球各地大大小小的AI項目，但也揭示了AI數據處理環節是勞動力密集產業的事實。

從那之后，資金涌入各類AI模型創業領域，相比之下AI數據環節則少有人問津。

不過十余年之后，當曾經夢想的“無所不知的模型”真正誕生，情形似乎開始發生變化。

美國研究機構OpenAI發布的大語言模型ChatGPT，被視為揭示了AI行業新的發展方向，也帶動各路資本涌入大語言模型研發。

大型模型對數據處理提出了新的玩法，也意味著全新的技術掘金空間正被打開。一二級市場中，投資熱情已經帶動著相關企業的估值高漲。開年至今，A股“AI數據第一股”海天瑞聲已拉出4個漲停板。截至3月15日收盤，海天瑞聲市值已達到70.41億元。

不僅如此，據業內消息，多家大廠正在著手將數據標注團隊獨立出來。一場對AI數據服務市場的搶奪戰，正在吹響號角。

“AI數據”突然又香了

AI數據處理主要步驟包括數據收集、清洗原始數據、對數據進行標注等等。根據相關統計，數據處理往往會占據整個AI項目實施過程中80%的時間。其中最耗費時間的則是標注環節。

數據標注是指人工對文本、視頻、圖像等元數據進行標注，以此將元數據轉換為機器可以識別的信息，標記好的數據才能用于訓練AI模型。因此，數據標注常被視為“dirty work（臟活累活）”，相關工作常被委托給第三方外包企業完成。

從2022下半年開始，這項曾經不受歡迎的“dirty work”，突然獲得了前所未有的重視。

“我和團隊2017年開始創業時，很多機構還無法理解數據處理的價值，我們只能通過描述未來的愿景說服他們。之后幾年里，我們平均營收年增速在50%-100%，因為我們一開始投入在自動化算法的比例比較大，堅持難而正確的事情，所以橫向對比，沒有純粹做業務的公司跑得快?！盇I數據服務企業星塵數據（北京星塵紀元智能科技有限公司）的創始人、CEO章磊告訴市界。

不過，最近情況明顯發生了變化。越來越多投資人找到星塵數據，希望能對其進行投資。

2022年12月底，星塵數據完成了5000萬元的A輪融資。據一位接近星塵數據的知情人士透露，此后仍有多家投資機構在積極接觸星塵數據，“有時候一天要接觸不止一家機構”。公司預計將在2023年中開啟下一輪融資。

一家企業面臨的際遇變化，背后是越來越多的投資人正將目光投向這一領域。

供職于一家腰部投資機構的Andy告訴市界，目前AI數據處理項目已經成為新的投資熱點，“在2017、2018年的AI融資高峰期里，如果一個項目同時滿足海歸科學家、CV（計算機視覺技術）、團隊這3點，大家都會搶著投。現如今如果把CV換成數據，大家也會搶著投。”

所謂“搶”，體現在當Andy接觸到某個數據處理團隊時，“對方會直言近期也有別的投資方來聯系過，壓力就給到我這邊了”。

在中小型投資機構做出動作之前，頭部的資本已更早地對AI數據進行了布局，這更讓新入場的團隊和資本感受到壓力。

比如，國內“AI數據第一股”海天瑞聲曾在2017年的B輪投資中，獲得了小米集團的青睞；2018年，梅花創投現身于愛數智慧的A輪融資；2019年，數據服務平臺格物鈦完成Pre-A輪融資，紅杉中國、真格基金同臺投資……

如果說AI數據服務在一二級市場的火熱距離普通人的生活還有距離，那么產業層面的火熱則更容易被人們所感知。

近幾個月，在河南從事文本標注工作的史月，突然發現自己的職業“火”起來了，“我一直都是獨立做標注單，靠熟人組團接單。最近明顯感覺單子多了，有時候突然有熟人把我拉到一個微信群里，然后就開始發需求，問能不能接”。

在內蒙古的易暉也有同樣的感受：“甲方非常多。我一年前入行，在本地數標基地和朋友一起創業做標注團隊，一年過去我們已經發展出300人的團隊了?！苯酉聛?，易暉還打算繼續擴充團隊：“你只有更大的團隊，才能拿到更大體量的數據包?！?

不僅如此，易暉口中的一些“甲方”已親自下場，試圖自主搭建數據標注團隊。據36氪援引業內人士信息：“目前，已經有不少AI大廠開始著手把自己AI標注的部分工作獨立出來了?！?

消解勞動密集的“魔咒”

與AI數據投資熱潮分不開的，是以ChatGPT為代表的大模型的興起。

Meta首席人工智能科學家Yann LeCun評論ChatGPT稱：“（它）并不具有創新性，也不具有革命性……它只是個巧妙的組合”。

從AI的三要素算法、算力和數據角度分別來看，ChatGPT采用的核心算法Transformer最早由谷歌提出，代碼已經開源；而ChatGPT訓練過程中由英偉達芯片A100支持也早已不是秘密。在這個令人驚嘆的大模型中，唯一無形的技術壁壘只剩下數據——那多達175B個參數，一個極其高質量的數據集。

如國內AI企業OneFlow對此評論的：“算力（芯片）是自由流通的商品，花錢可以買到，工程（算法）上有開源項目和團隊，因此，對互聯網大廠之外的團隊來說，剩下最大的挑戰在于高質量訓練數據集。”

至今，OpenAI尚未公布ChatGPT訓練用數據集的來源和具體細節。

“人工智能三要素里，數據不值錢，這是過去幾十年里大家形成的觀念，但是就像Paul Graham（硅谷知名天使投資人）說的，創業思維最吊詭的一點在于‘正確的做法和直覺往往是相悖的’?，F在全球估值最高的AI公司，恰恰是一家數據標注企業。這足以說明數據服務的價值是被低估的?！币晃煌顿Y人向市界評論道。

他提到的這家AI數據標注企業，是美國華裔創始人Alexandr Wang在2016年創辦的Scale AI。截至2021年4月宣布的一輪融資，Scale AI的估值為73億美元，公司客戶中包括OpenAI、Airbnb等知名企業或機構。

這種價值的低估不僅發生在一級市場。哪怕在許多市場參與者眼中，AI數據處理也是一個人力“內卷”的生意。

星塵數據創始人、CEO章磊分析道：“目前市場中存在最多類型的AI數據企業分為兩類，第一類是‘做生意’型的企業，也就是自己聚集一批標注人力并做中間整合、低買高賣，核心競爭力在于對甲方的商務、銷售能力；第二類是做眾包平臺，甲方可以在平臺發布任務，人力自主接單，這類平臺的核心競爭力是運營能力，要看拉新、月活、日活等數據。但這兩類企業都沒有發展算法相關的能力。”

而這兩類企業，都沒有脫離AI數據服務“勞動密集”的窠臼，但Scale AI代表的是一種不同于傳統數據標注企業人力“內卷”的全新商業路徑。盡管同樣雇傭了部分海外人力進行標注，但Scale AI更多是通過自研的自動化數據標注（auto labeling）平臺完成工作。

具體來說，Scale AI的標注工具能夠通過算法自動、快速甄別物體，通過初篩的圖片再經過外包團隊的二次篩查和標注，用人機交互的方式消解對人工的過度依賴，在海量數據的效率、成本、標注準確率之間尋找最佳平衡點。

如何讓數據有更高的價值

理想狀態下，90%的數據標注工作都可以由數據公司提供的工具來完成。但如果想要助力像ChatGPT一樣能力出眾的模型誕生，這或許還遠遠不夠。

“想要樹立獨特的競爭力，需要跟算法客戶有更加深度的綁定，思考在數據環節能夠怎么幫助前沿算法落地?！闭吕诒硎?。

數據自動化標注工具說到底也是AI算法和產品設計。而隨著技術進步，算法對數據系統的要求不僅僅是人工苦力活，更多的是自動化、算法策略，以及相匹配的數據閉環系統。例如ChatGPT中的人機閉環，就需要支持主動學習和強化學習的系統與之匹配。

這意味著要建立數據服務的壁壘，或許還需另辟蹊徑。據章磊分析，除了通過自動化標注工具來提升標注效率之外，還需要具備另外兩方面的能力：數據策略能力和數據閉環能力。

其中，前者指的是數據服務商對AI數據處理整個過程中的領悟和把控力，既涉及大量算法相關的技術，也涉及以數據為中心的反饋迭代技術，還需要服務商掌握一整套項目管理的方法論。

舉例來說，相較于此前算法客戶提出標注規則，服務商“盲目”完成任務的舊模式，未來數據服務人員能否對算法標注規則給出自己的建議，來提升算法的訓練效果？

另外據一位資深AI數據服務從業者告訴市界，據其調研，如今企業缺乏AI數據資源管理系統是常態，“此前由于缺乏數據管理意識，甚至很多科技大廠也沒有建立起AI database，創始人甚至可能不知道公司到底有多少數據資源。但是如今隨著大模型等風口降臨，許多企業都準備自研數據系統”。

但是，在短時間內想要研發出可供大模型訓練的數據系統并非易事。

因此，在這一方面提供助力，也是AI數據服務企業在“數據策略”方面發展的一大方向。章磊分析：“如今客戶需要的數據系統需要滿足兩個特點，分別是具有自動化能力、具有和算法的整合能力?！?

能否幫助客戶在繁雜的數據中快速摸索和整理出可供訓練的部分？這也考驗著服務商的數據策略能力。

而數據閉環能力，指的則是算法模型與數據集之間協同的、相互的、同期的迭代。當AI模型輸出結果出現問題時，數據服務環節可以動態感知到問題所在，并通過同步改變輸入的參數來校正訓練結果。

從這個意義而言，“數據閉環”的能力，就是模型自我快速“debug（調試）”的能力。

舉例而言，許多用戶在使用過程中發現ChatGPT在回答某些問題時出現了錯誤。而如今發布的ChatGPT并未接入互聯網，訓練數據截至2021年之前。

也就是說，ChatGPT模型與數據之間的實時聯絡被“斬斷”了，模型無法實時迭代。如果能夠打通數據閉環，這個問題就能得到解決。

▲（ChatGPT在回答某些問題時可能發生錯誤）

據章磊透露，目前國內大部分AI數據服務企業仍聚集于人力標注的低價值量環節，具備上述三方面潛力的玩家鳳毛麟角。

英特爾聯合創始人安迪·格魯夫曾在其自傳中寫道：科技發展史上有一個基本規則，即只要可能發生的事，一定會變成事實。

對許多人而言，人工標注還是AI數據處理的代名詞，但變化已在不經意之間發生。盡管離最終實現還有距離，但“自動化標注+數據策略服務+構建數據閉環”正為AI數據服務市場打開更大的想象空間。

對于國內玩家而言，唯有上溯產業價值鏈，才能在新一波的AI技術浪潮中不受蕩滌。

注：文中Andy為化名。

參考文獻：

1、《開啟人工智能時代給AI一雙慧眼專訪斯坦福大學人工智能實驗室主任李飛飛》，楊瀾訪談錄

2、《A Chat with Andrew on MLOps: From Model-centric to Data-centric AI》，吳恩達

3、《ChatGPT數據集之謎》，OneFlow

【本文為合作媒體授權博望財經轉載，文章版權歸原作者及原出處所有。文章系作者個人觀點，不代表博望財經立場，轉載請聯系原作者及原出處獲得授權。有任何疑問都請聯系（聯系（微信公眾號ID：AppleiTree）。免責聲明：本網站所有文章僅作為資訊傳播使用，既不代表任何觀點導向，也不構成任何投資建議?！?/div>