ChatGPT拯救月薪5000的數據打工人

        市界觀察董溫淑2023-03-16 11:50 大公司
        AI的三要素是數據、算法和算力。多年間,如果畫出一條人工智能(AI)行業的鄙視鏈,數據處理的工作一定處于底端。

        北京時間3月15日凌晨,OpenAI正式推出大型多模態語言模型GPT-4——也就是ChatGPT所基于的GPT-3.5的迭代版本。

        GPT-4的發布正好趕在百度語言大模型“文心一言”發布的前一天。壓力,再一次給到正加班加點鏖戰“中國版ChatGPT”的各家大廠這邊。

        GPT-4最為亮眼的革新莫過于支持“多模態”輸入,也就是相比于ChatGPT(基于GPT-3.5)僅能文字輸入和文字輸出,GPT-4還支持圖片、文字輸入——換句話說,它看得懂表情包和梗圖。

        此外,根據 OpenAI公布的研究數據,GPT-4不僅在各項性能表現上均優于GPT-3.5模型,在一系列人類測試中也表現出了更強的能力,其中包括“難倒”萬千大學生的高等數學(微積分)、統一律師資格考試、美國高考(SAT)數學……

        目前,OpenAI發布了集成GPT-4的ChatGPT Plus,用戶可以以每月20美元的訂閱標準搶先試用。不過,ChatGPT Plus暫時還未開啟圖像輸入功能。

        OpenAI并未公布GPT-4用于訓練的數據規模,但考慮到前代模型ChatGPT(基于GPT-3.5模型)使用了1750億個參數,業界估算GPT-4使用的參數規?;蜻_到100萬億級別。

        而在幾年前,這是不可想象的。


        ChatGPT萬億參數背后


        全球頂級人工智能(AI)科學家、斯坦福大學終身教授、曾任谷歌首席AI科學家的李飛飛分享過一個故事:

        2009年之前,AI圖像識別模型僅能認出四種物體:汽車、飛機、豹子、人臉,因為以往研究者一般只會針對這四類物體進行模型訓練。

        更深層次的原因是,想讓AI認識一種物體,需要人工先在圖片中標記出目標物,再將大量這樣的圖片“喂”給AI進行訓練。“有多少人工,就有多少智能”,AI能力越強,背后要付出的人力越多。

        因此李飛飛設想,如果人工標注足夠多的圖片并用以訓練,理論上就能夠得到“無所不知”的模型。

        這堪稱一個瘋狂的想法,如果想讓AI識別出字典上的所有物體,需要標注的圖片數量達上億張,李飛飛的3人課題組要不眠不休干幾十年才能完成。

        最后,李飛飛不得不通過眾包平臺發布任務,低價雇傭全球各地的勞動力完成標注任務——可想而知,大部分標注工來自更具人口紅利的國家和地區。

        這是全球最知名大型視覺數據庫ImageNet背后的故事,也是“三院院士”“AI女神”李飛飛的成名之戰。ImageNet滋養了全球各地大大小小的AI項目,但也揭示了AI數據處理環節是勞動力密集產業的事實。

        從那之后,資金涌入各類AI模型創業領域,相比之下AI數據環節則少有人問津。

        不過十余年之后,當曾經夢想的“無所不知的模型”真正誕生,情形似乎開始發生變化。

        美國研究機構OpenAI發布的大語言模型ChatGPT,被視為揭示了AI行業新的發展方向,也帶動各路資本涌入大語言模型研發。

        大型模型對數據處理提出了新的玩法,也意味著全新的技術掘金空間正被打開。一二級市場中,投資熱情已經帶動著相關企業的估值高漲。開年至今,A股“AI數據第一股”海天瑞聲已拉出4個漲停板。截至3月15日收盤,海天瑞聲市值已達到70.41億元。

        不僅如此,據業內消息,多家大廠正在著手將數據標注團隊獨立出來。一場對AI數據服務市場的搶奪戰,正在吹響號角。


        “AI數據”突然又香了


        AI數據處理主要步驟包括數據收集、清洗原始數據、對數據進行標注等等。根據相關統計,數據處理往往會占據整個AI項目實施過程中80%的時間。其中最耗費時間的則是標注環節。

        數據標注是指人工對文本、視頻、圖像等元數據進行標注,以此將元數據轉換為機器可以識別的信息,標記好的數據才能用于訓練AI模型。因此,數據標注常被視為“dirty work(臟活累活)”,相關工作常被委托給第三方外包企業完成。

        從2022下半年開始,這項曾經不受歡迎的“dirty work”,突然獲得了前所未有的重視。

        “我和團隊2017年開始創業時,很多機構還無法理解數據處理的價值,我們只能通過描述未來的愿景說服他們。之后幾年里,我們平均營收年增速在50%-100%,因為我們一開始投入在自動化算法的比例比較大,堅持難而正確的事情,所以橫向對比,沒有純粹做業務的公司跑得快。”AI數據服務企業星塵數據(北京星塵紀元智能科技有限公司)的創始人、CEO章磊告訴市界。

        不過,最近情況明顯發生了變化。越來越多投資人找到星塵數據,希望能對其進行投資。

        2022年12月底,星塵數據完成了5000萬元的A輪融資。據一位接近星塵數據的知情人士透露,此后仍有多家投資機構在積極接觸星塵數據,“有時候一天要接觸不止一家機構”。公司預計將在2023年中開啟下一輪融資。

        一家企業面臨的際遇變化,背后是越來越多的投資人正將目光投向這一領域。

        供職于一家腰部投資機構的Andy告訴市界,目前AI數據處理項目已經成為新的投資熱點,“在2017、2018年的AI融資高峰期里,如果一個項目同時滿足海歸科學家、CV(計算機視覺技術)、團隊這3點,大家都會搶著投。現如今如果把CV換成數據,大家也會搶著投?!?

        所謂“搶”,體現在當Andy接觸到某個數據處理團隊時,“對方會直言近期也有別的投資方來聯系過,壓力就給到我這邊了”。

        在中小型投資機構做出動作之前,頭部的資本已更早地對AI數據進行了布局,這更讓新入場的團隊和資本感受到壓力。

        比如,國內“AI數據第一股”海天瑞聲曾在2017年的B輪投資中,獲得了小米集團的青睞;2018年,梅花創投現身于愛數智慧的A輪融資;2019年,數據服務平臺格物鈦完成Pre-A輪融資,紅杉中國、真格基金同臺投資……

        如果說AI數據服務在一二級市場的火熱距離普通人的生活還有距離,那么產業層面的火熱則更容易被人們所感知。

        近幾個月,在河南從事文本標注工作的史月,突然發現自己的職業“火”起來了,“我一直都是獨立做標注單,靠熟人組團接單。最近明顯感覺單子多了,有時候突然有熟人把我拉到一個微信群里,然后就開始發需求,問能不能接”。

        在內蒙古的易暉也有同樣的感受:“甲方非常多。我一年前入行,在本地數標基地和朋友一起創業做標注團隊,一年過去我們已經發展出300人的團隊了?!苯酉聛恚讜熯€打算繼續擴充團隊:“你只有更大的團隊,才能拿到更大體量的數據包?!?

        不僅如此,易暉口中的一些“甲方”已親自下場,試圖自主搭建數據標注團隊。據36氪援引業內人士信息:“目前,已經有不少AI大廠開始著手把自己AI標注的部分工作獨立出來了。”


        消解勞動密集的“魔咒”


        與AI數據投資熱潮分不開的,是以ChatGPT為代表的大模型的興起。

        Meta首席人工智能科學家Yann LeCun評論ChatGPT稱:“(它)并不具有創新性,也不具有革命性……它只是個巧妙的組合”。

        從AI的三要素算法、算力和數據角度分別來看,ChatGPT采用的核心算法Transformer最早由谷歌提出,代碼已經開源;而ChatGPT訓練過程中由英偉達芯片A100支持也早已不是秘密。在這個令人驚嘆的大模型中,唯一無形的技術壁壘只剩下數據——那多達175B個參數,一個極其高質量的數據集。

        如國內AI企業OneFlow對此評論的:“算力(芯片)是自由流通的商品,花錢可以買到,工程(算法)上有開源項目和團隊,因此,對互聯網大廠之外的團隊來說,剩下最大的挑戰在于高質量訓練數據集?!?

        至今,OpenAI尚未公布ChatGPT訓練用數據集的來源和具體細節。

        “人工智能三要素里,數據不值錢,這是過去幾十年里大家形成的觀念,但是就像Paul Graham(硅谷知名天使投資人)說的,創業思維最吊詭的一點在于‘正確的做法和直覺往往是相悖的’?,F在全球估值最高的AI公司,恰恰是一家數據標注企業。這足以說明數據服務的價值是被低估的?!币晃煌顿Y人向市界評論道。

        他提到的這家AI數據標注企業,是美國華裔創始人Alexandr Wang在2016年創辦的Scale AI。截至2021年4月宣布的一輪融資,Scale AI的估值為73億美元,公司客戶中包括OpenAI、Airbnb等知名企業或機構。

        這種價值的低估不僅發生在一級市場。哪怕在許多市場參與者眼中,AI數據處理也是一個人力“內卷”的生意。

        星塵數據創始人、CEO章磊分析道:“目前市場中存在最多類型的AI數據企業分為兩類,第一類是‘做生意’型的企業,也就是自己聚集一批標注人力并做中間整合、低買高賣,核心競爭力在于對甲方的商務、銷售能力;第二類是做眾包平臺,甲方可以在平臺發布任務,人力自主接單,這類平臺的核心競爭力是運營能力,要看拉新、月活、日活等數據。但這兩類企業都沒有發展算法相關的能力。”

        而這兩類企業,都沒有脫離AI數據服務“勞動密集”的窠臼,但Scale AI代表的是一種不同于傳統數據標注企業人力“內卷”的全新商業路徑。盡管同樣雇傭了部分海外人力進行標注,但Scale AI更多是通過自研的自動化數據標注(auto labeling)平臺完成工作。

        具體來說,Scale AI的標注工具能夠通過算法自動、快速甄別物體,通過初篩的圖片再經過外包團隊的二次篩查和標注,用人機交互的方式消解對人工的過度依賴,在海量數據的效率、成本、標注準確率之間尋找最佳平衡點。


        如何讓數據有更高的價值


        理想狀態下,90%的數據標注工作都可以由數據公司提供的工具來完成。但如果想要助力像ChatGPT一樣能力出眾的模型誕生,這或許還遠遠不夠。

        “想要樹立獨特的競爭力,需要跟算法客戶有更加深度的綁定,思考在數據環節能夠怎么幫助前沿算法落地?!闭吕诒硎?。

        數據自動化標注工具說到底也是AI算法和產品設計。而隨著技術進步,算法對數據系統的要求不僅僅是人工苦力活,更多的是自動化、算法策略,以及相匹配的數據閉環系統。例如ChatGPT中的人機閉環,就需要支持主動學習和強化學習的系統與之匹配。

        這意味著要建立數據服務的壁壘,或許還需另辟蹊徑。據章磊分析,除了通過自動化標注工具來提升標注效率之外,還需要具備另外兩方面的能力:數據策略能力和數據閉環能力。

        其中,前者指的是數據服務商對AI數據處理整個過程中的領悟和把控力,既涉及大量算法相關的技術,也涉及以數據為中心的反饋迭代技術,還需要服務商掌握一整套項目管理的方法論。

        舉例來說,相較于此前算法客戶提出標注規則,服務商“盲目”完成任務的舊模式,未來數據服務人員能否對算法標注規則給出自己的建議,來提升算法的訓練效果?

        另外據一位資深AI數據服務從業者告訴市界,據其調研,如今企業缺乏AI數據資源管理系統是常態,“此前由于缺乏數據管理意識,甚至很多科技大廠也沒有建立起AI database,創始人甚至可能不知道公司到底有多少數據資源。但是如今隨著大模型等風口降臨,許多企業都準備自研數據系統”。

        但是,在短時間內想要研發出可供大模型訓練的數據系統并非易事。

        因此,在這一方面提供助力,也是AI數據服務企業在“數據策略”方面發展的一大方向。章磊分析:“如今客戶需要的數據系統需要滿足兩個特點,分別是具有自動化能力、具有和算法的整合能力?!?

        能否幫助客戶在繁雜的數據中快速摸索和整理出可供訓練的部分?這也考驗著服務商的數據策略能力。

        而數據閉環能力,指的則是算法模型與數據集之間協同的、相互的、同期的迭代。當AI模型輸出結果出現問題時,數據服務環節可以動態感知到問題所在,并通過同步改變輸入的參數來校正訓練結果。

        從這個意義而言,“數據閉環”的能力,就是模型自我快速“debug(調試)”的能力。

        舉例而言,許多用戶在使用過程中發現ChatGPT在回答某些問題時出現了錯誤。而如今發布的ChatGPT并未接入互聯網,訓練數據截至2021年之前。

        也就是說,ChatGPT模型與數據之間的實時聯絡被“斬斷”了,模型無法實時迭代。如果能夠打通數據閉環,這個問題就能得到解決。

        ▲(ChatGPT在回答某些問題時可能發生錯誤)

        據章磊透露,目前國內大部分AI數據服務企業仍聚集于人力標注的低價值量環節,具備上述三方面潛力的玩家鳳毛麟角。

        英特爾聯合創始人安迪·格魯夫曾在其自傳中寫道:科技發展史上有一個基本規則,即只要可能發生的事,一定會變成事實。

        對許多人而言,人工標注還是AI數據處理的代名詞,但變化已在不經意之間發生。盡管離最終實現還有距離,但“自動化標注+數據策略服務+構建數據閉環”正為AI數據服務市場打開更大的想象空間。

        對于國內玩家而言,唯有上溯產業價值鏈,才能在新一波的AI技術浪潮中不受蕩滌。

        注:文中Andy為化名。

        參考文獻:

        1、《開啟人工智能時代 給AI一雙慧眼 專訪斯坦福大學人工智能實驗室主任李飛飛》,楊瀾訪談錄

        2、《A Chat with Andrew on MLOps: From Model-centric to Data-centric AI》,吳恩達

        3、《ChatGPT數據集之謎》,OneFlow

        【本文為合作媒體授權博望財經轉載,文章版權歸原作者及原出處所有。文章系作者個人觀點,不代表博望財經立場,轉載請聯系原作者及原出處獲得授權。有任何疑問都請聯系(聯系(微信公眾號ID:AppleiTree)。免責聲明:本網站所有文章僅作為資訊傳播使用,既不代表任何觀點導向,也不構成任何投資建議?!?/div>

        猜你喜歡

        亚洲国产精品无码中文lv| 亚洲一区二区三区AV无码| 亚洲成a人片在线观看中文app| 日本亚洲色大成网站www久久| a级亚洲片精品久久久久久久| 亚洲日本在线观看| 亚洲成年网站在线观看| 国产亚洲美日韩AV中文字幕无码成人 | 77777_亚洲午夜久久多人| 性色av极品无码专区亚洲| 久久精品国产亚洲AV无码麻豆| 亚洲精品无码久久久| 亚洲国产高清在线精品一区| 日本久久久久亚洲中字幕| 久久久亚洲欧洲日产国码二区| 亚洲免费精彩视频在线观看| 无码久久精品国产亚洲Av影片| 亚洲AV无码之日韩精品| 精品久久亚洲中文无码| 亚洲s色大片在线观看| 亚洲国产日韩a在线播放| 亚洲AV日韩AV无码污污网站| 国产精品亚洲色图| 亚洲国产精品免费观看| 亚洲精品自偷自拍无码| 激情无码亚洲一区二区三区| 亚洲人成电影网站久久| 亚洲人成电影网站色www| 亚洲天堂中文字幕在线观看| 亚洲宅男精品一区在线观看| 亚洲中文字幕无码一去台湾| 亚洲a∨无码一区二区| 亚洲黄片手机免费观看| 亚洲精品午夜无码电影网| 国产亚洲视频在线观看| 亚洲一级特黄大片无码毛片| 一区国严二区亚洲三区| 亚洲av无码专区国产不乱码| 亚洲第一区在线观看| 亚洲人成精品久久久久| 久久亚洲AV成人无码国产|