成人欧美一区二区三区视频不卡_欧美午夜艳片欧美精品_日日摸日日碰夜夜爽视频网站_欧美卡一卡二卡新区aaa

ChatGPT拯救月薪5000的數據打工人

市界觀察董溫淑2023-03-16 11:50 大公司
AI的三要素是數據、算法和算力。多年間,如果畫出一條人工智能(AI)行業的鄙視鏈,數據處理的工作一定處于底端。

北京時間3月15日凌晨,OpenAI正式推出大型多模態語言模型GPT-4——也就是ChatGPT所基于的GPT-3.5的迭代版本。

GPT-4的發布正好趕在百度語言大模型“文心一言”發布的前一天。壓力,再一次給到正加班加點鏖戰“中國版ChatGPT”的各家大廠這邊。

GPT-4最為亮眼的革新莫過于支持“多模態”輸入,也就是相比于ChatGPT(基于GPT-3.5)僅能文字輸入和文字輸出,GPT-4還支持圖片、文字輸入——換句話說,它看得懂表情包和梗圖。

此外,根據 OpenAI公布的研究數據,GPT-4不僅在各項性能表現上均優于GPT-3.5模型,在一系列人類測試中也表現出了更強的能力,其中包括“難倒”萬千大學生的高等數學(微積分)、統一律師資格考試、美國高考(SAT)數學……

目前,OpenAI發布了集成GPT-4的ChatGPT Plus,用戶可以以每月20美元的訂閱標準搶先試用。不過,ChatGPT Plus暫時還未開啟圖像輸入功能。

OpenAI并未公布GPT-4用于訓練的數據規模,但考慮到前代模型ChatGPT(基于GPT-3.5模型)使用了1750億個參數,業界估算GPT-4使用的參數規?;蜻_到100萬億級別。

而在幾年前,這是不可想象的。


ChatGPT萬億參數背后


全球頂級人工智能(AI)科學家、斯坦福大學終身教授、曾任谷歌首席AI科學家的李飛飛分享過一個故事:

2009年之前,AI圖像識別模型僅能認出四種物體:汽車、飛機、豹子、人臉,因為以往研究者一般只會針對這四類物體進行模型訓練。

更深層次的原因是,想讓AI認識一種物體,需要人工先在圖片中標記出目標物,再將大量這樣的圖片“喂”給AI進行訓練。“有多少人工,就有多少智能”,AI能力越強,背后要付出的人力越多。

因此李飛飛設想,如果人工標注足夠多的圖片并用以訓練,理論上就能夠得到“無所不知”的模型。

這堪稱一個瘋狂的想法,如果想讓AI識別出字典上的所有物體,需要標注的圖片數量達上億張,李飛飛的3人課題組要不眠不休干幾十年才能完成。

最后,李飛飛不得不通過眾包平臺發布任務,低價雇傭全球各地的勞動力完成標注任務——可想而知,大部分標注工來自更具人口紅利的國家和地區。

這是全球最知名大型視覺數據庫ImageNet背后的故事,也是“三院院士”“AI女神”李飛飛的成名之戰。ImageNet滋養了全球各地大大小小的AI項目,但也揭示了AI數據處理環節是勞動力密集產業的事實。

從那之后,資金涌入各類AI模型創業領域,相比之下AI數據環節則少有人問津。

不過十余年之后,當曾經夢想的“無所不知的模型”真正誕生,情形似乎開始發生變化。

美國研究機構OpenAI發布的大語言模型ChatGPT,被視為揭示了AI行業新的發展方向,也帶動各路資本涌入大語言模型研發。

大型模型對數據處理提出了新的玩法,也意味著全新的技術掘金空間正被打開。一二級市場中,投資熱情已經帶動著相關企業的估值高漲。開年至今,A股“AI數據第一股”海天瑞聲已拉出4個漲停板。截至3月15日收盤,海天瑞聲市值已達到70.41億元。

不僅如此,據業內消息,多家大廠正在著手將數據標注團隊獨立出來。一場對AI數據服務市場的搶奪戰,正在吹響號角。


“AI數據”突然又香了


AI數據處理主要步驟包括數據收集、清洗原始數據、對數據進行標注等等。根據相關統計,數據處理往往會占據整個AI項目實施過程中80%的時間。其中最耗費時間的則是標注環節。

數據標注是指人工對文本、視頻、圖像等元數據進行標注,以此將元數據轉換為機器可以識別的信息,標記好的數據才能用于訓練AI模型。因此,數據標注常被視為“dirty work(臟活累活)”,相關工作常被委托給第三方外包企業完成。

從2022下半年開始,這項曾經不受歡迎的“dirty work”,突然獲得了前所未有的重視。

“我和團隊2017年開始創業時,很多機構還無法理解數據處理的價值,我們只能通過描述未來的愿景說服他們。之后幾年里,我們平均營收年增速在50%-100%,因為我們一開始投入在自動化算法的比例比較大,堅持難而正確的事情,所以橫向對比,沒有純粹做業務的公司跑得快?!盇I數據服務企業星塵數據(北京星塵紀元智能科技有限公司)的創始人、CEO章磊告訴市界。

不過,最近情況明顯發生了變化。越來越多投資人找到星塵數據,希望能對其進行投資。

2022年12月底,星塵數據完成了5000萬元的A輪融資。據一位接近星塵數據的知情人士透露,此后仍有多家投資機構在積極接觸星塵數據,“有時候一天要接觸不止一家機構”。公司預計將在2023年中開啟下一輪融資。

一家企業面臨的際遇變化,背后是越來越多的投資人正將目光投向這一領域。

供職于一家腰部投資機構的Andy告訴市界,目前AI數據處理項目已經成為新的投資熱點,“在2017、2018年的AI融資高峰期里,如果一個項目同時滿足海歸科學家、CV(計算機視覺技術)、團隊這3點,大家都會搶著投。現如今如果把CV換成數據,大家也會搶著投。”

所謂“搶”,體現在當Andy接觸到某個數據處理團隊時,“對方會直言近期也有別的投資方來聯系過,壓力就給到我這邊了”。

在中小型投資機構做出動作之前,頭部的資本已更早地對AI數據進行了布局,這更讓新入場的團隊和資本感受到壓力。

比如,國內“AI數據第一股”海天瑞聲曾在2017年的B輪投資中,獲得了小米集團的青睞;2018年,梅花創投現身于愛數智慧的A輪融資;2019年,數據服務平臺格物鈦完成Pre-A輪融資,紅杉中國、真格基金同臺投資……

如果說AI數據服務在一二級市場的火熱距離普通人的生活還有距離,那么產業層面的火熱則更容易被人們所感知。

近幾個月,在河南從事文本標注工作的史月,突然發現自己的職業“火”起來了,“我一直都是獨立做標注單,靠熟人組團接單。最近明顯感覺單子多了,有時候突然有熟人把我拉到一個微信群里,然后就開始發需求,問能不能接”。

在內蒙古的易暉也有同樣的感受:“甲方非常多。我一年前入行,在本地數標基地和朋友一起創業做標注團隊,一年過去我們已經發展出300人的團隊了?!苯酉聛?,易暉還打算繼續擴充團隊:“你只有更大的團隊,才能拿到更大體量的數據包?!?

不僅如此,易暉口中的一些“甲方”已親自下場,試圖自主搭建數據標注團隊。據36氪援引業內人士信息:“目前,已經有不少AI大廠開始著手把自己AI標注的部分工作獨立出來了?!?


消解勞動密集的“魔咒”


與AI數據投資熱潮分不開的,是以ChatGPT為代表的大模型的興起。

Meta首席人工智能科學家Yann LeCun評論ChatGPT稱:“(它)并不具有創新性,也不具有革命性……它只是個巧妙的組合”。

從AI的三要素算法、算力和數據角度分別來看,ChatGPT采用的核心算法Transformer最早由谷歌提出,代碼已經開源;而ChatGPT訓練過程中由英偉達芯片A100支持也早已不是秘密。在這個令人驚嘆的大模型中,唯一無形的技術壁壘只剩下數據——那多達175B個參數,一個極其高質量的數據集。

如國內AI企業OneFlow對此評論的:“算力(芯片)是自由流通的商品,花錢可以買到,工程(算法)上有開源項目和團隊,因此,對互聯網大廠之外的團隊來說,剩下最大的挑戰在于高質量訓練數據集。”

至今,OpenAI尚未公布ChatGPT訓練用數據集的來源和具體細節。

“人工智能三要素里,數據不值錢,這是過去幾十年里大家形成的觀念,但是就像Paul Graham(硅谷知名天使投資人)說的,創業思維最吊詭的一點在于‘正確的做法和直覺往往是相悖的’?,F在全球估值最高的AI公司,恰恰是一家數據標注企業。這足以說明數據服務的價值是被低估的?!币晃煌顿Y人向市界評論道。

他提到的這家AI數據標注企業,是美國華裔創始人Alexandr Wang在2016年創辦的Scale AI。截至2021年4月宣布的一輪融資,Scale AI的估值為73億美元,公司客戶中包括OpenAI、Airbnb等知名企業或機構。

這種價值的低估不僅發生在一級市場。哪怕在許多市場參與者眼中,AI數據處理也是一個人力“內卷”的生意。

星塵數據創始人、CEO章磊分析道:“目前市場中存在最多類型的AI數據企業分為兩類,第一類是‘做生意’型的企業,也就是自己聚集一批標注人力并做中間整合、低買高賣,核心競爭力在于對甲方的商務、銷售能力;第二類是做眾包平臺,甲方可以在平臺發布任務,人力自主接單,這類平臺的核心競爭力是運營能力,要看拉新、月活、日活等數據。但這兩類企業都沒有發展算法相關的能力。”

而這兩類企業,都沒有脫離AI數據服務“勞動密集”的窠臼,但Scale AI代表的是一種不同于傳統數據標注企業人力“內卷”的全新商業路徑。盡管同樣雇傭了部分海外人力進行標注,但Scale AI更多是通過自研的自動化數據標注(auto labeling)平臺完成工作。

具體來說,Scale AI的標注工具能夠通過算法自動、快速甄別物體,通過初篩的圖片再經過外包團隊的二次篩查和標注,用人機交互的方式消解對人工的過度依賴,在海量數據的效率、成本、標注準確率之間尋找最佳平衡點。


如何讓數據有更高的價值


理想狀態下,90%的數據標注工作都可以由數據公司提供的工具來完成。但如果想要助力像ChatGPT一樣能力出眾的模型誕生,這或許還遠遠不夠。

“想要樹立獨特的競爭力,需要跟算法客戶有更加深度的綁定,思考在數據環節能夠怎么幫助前沿算法落地?!闭吕诒硎?。

數據自動化標注工具說到底也是AI算法和產品設計。而隨著技術進步,算法對數據系統的要求不僅僅是人工苦力活,更多的是自動化、算法策略,以及相匹配的數據閉環系統。例如ChatGPT中的人機閉環,就需要支持主動學習和強化學習的系統與之匹配。

這意味著要建立數據服務的壁壘,或許還需另辟蹊徑。據章磊分析,除了通過自動化標注工具來提升標注效率之外,還需要具備另外兩方面的能力:數據策略能力和數據閉環能力。

其中,前者指的是數據服務商對AI數據處理整個過程中的領悟和把控力,既涉及大量算法相關的技術,也涉及以數據為中心的反饋迭代技術,還需要服務商掌握一整套項目管理的方法論。

舉例來說,相較于此前算法客戶提出標注規則,服務商“盲目”完成任務的舊模式,未來數據服務人員能否對算法標注規則給出自己的建議,來提升算法的訓練效果?

另外據一位資深AI數據服務從業者告訴市界,據其調研,如今企業缺乏AI數據資源管理系統是常態,“此前由于缺乏數據管理意識,甚至很多科技大廠也沒有建立起AI database,創始人甚至可能不知道公司到底有多少數據資源。但是如今隨著大模型等風口降臨,許多企業都準備自研數據系統”。

但是,在短時間內想要研發出可供大模型訓練的數據系統并非易事。

因此,在這一方面提供助力,也是AI數據服務企業在“數據策略”方面發展的一大方向。章磊分析:“如今客戶需要的數據系統需要滿足兩個特點,分別是具有自動化能力、具有和算法的整合能力?!?

能否幫助客戶在繁雜的數據中快速摸索和整理出可供訓練的部分?這也考驗著服務商的數據策略能力。

而數據閉環能力,指的則是算法模型與數據集之間協同的、相互的、同期的迭代。當AI模型輸出結果出現問題時,數據服務環節可以動態感知到問題所在,并通過同步改變輸入的參數來校正訓練結果。

從這個意義而言,“數據閉環”的能力,就是模型自我快速“debug(調試)”的能力。

舉例而言,許多用戶在使用過程中發現ChatGPT在回答某些問題時出現了錯誤。而如今發布的ChatGPT并未接入互聯網,訓練數據截至2021年之前。

也就是說,ChatGPT模型與數據之間的實時聯絡被“斬斷”了,模型無法實時迭代。如果能夠打通數據閉環,這個問題就能得到解決。

▲(ChatGPT在回答某些問題時可能發生錯誤)

據章磊透露,目前國內大部分AI數據服務企業仍聚集于人力標注的低價值量環節,具備上述三方面潛力的玩家鳳毛麟角。

英特爾聯合創始人安迪·格魯夫曾在其自傳中寫道:科技發展史上有一個基本規則,即只要可能發生的事,一定會變成事實。

對許多人而言,人工標注還是AI數據處理的代名詞,但變化已在不經意之間發生。盡管離最終實現還有距離,但“自動化標注+數據策略服務+構建數據閉環”正為AI數據服務市場打開更大的想象空間。

對于國內玩家而言,唯有上溯產業價值鏈,才能在新一波的AI技術浪潮中不受蕩滌。

注:文中Andy為化名。

參考文獻:

1、《開啟人工智能時代 給AI一雙慧眼 專訪斯坦福大學人工智能實驗室主任李飛飛》,楊瀾訪談錄

2、《A Chat with Andrew on MLOps: From Model-centric to Data-centric AI》,吳恩達

3、《ChatGPT數據集之謎》,OneFlow

【本文為合作媒體授權博望財經轉載,文章版權歸原作者及原出處所有。文章系作者個人觀點,不代表博望財經立場,轉載請聯系原作者及原出處獲得授權。有任何疑問都請聯系(聯系(微信公眾號ID:AppleiTree)。免責聲明:本網站所有文章僅作為資訊傳播使用,既不代表任何觀點導向,也不構成任何投資建議?!?/div>

猜你喜歡

成人欧美一区二区三区视频不卡_欧美午夜艳片欧美精品_日日摸日日碰夜夜爽视频网站_欧美卡一卡二卡新区aaa

        中文字幕精品在线不卡| 国内成人精品2018免费看| 国产不卡视频一区| 自拍偷拍欧美激情| 欧美精品日韩综合在线| 日韩美女久久久| 国产一区久久久| ...中文天堂在线一区| 欧美巨大另类极品videosbest| 国产精品高清亚洲| 国产在线精品视频| 亚洲四区在线观看| 精品少妇一区二区三区视频免付费 | 国产精品一区二区三区四区| 国产精品麻豆视频| 日韩一区二区三区电影在线观看| 亚洲激情五月婷婷| www.亚洲色图| 色综合久久久久综合| 国产精品毛片大码女人| 国产在线精品不卡| 夜夜揉揉日日人人青青一国产精品 | 亚洲国产精品av| 国产一区在线观看视频| 亚洲欧美电影院| 欧美精品一区二区三区四区| 免费成人av在线播放| 国产精品毛片高清在线完整版 | 国产精品一色哟哟哟| 亚洲欧美偷拍卡通变态| www久久精品| 久久99精品国产| 亚洲伦理在线精品| 国产欧美视频一区二区三区| 国产永久精品大片wwwapp| 一区二区三区影院| 欧美国产一区二区| 成人性生交大片免费看视频在线| 午夜精品久久久久久久久久| 中文字幕永久在线不卡| 不卡欧美aaaaa| 欧美视频自拍偷拍| 亚洲成人免费影院| 国产精品视频你懂的| 欧美xxxxx牲另类人与| 久久99蜜桃精品| 亚洲国产精品综合小说图片区| 欧美国产国产综合| 风间由美性色一区二区三区| 婷婷国产在线综合| 亚洲黄色免费网站| 国产欧美日韩亚州综合 | 一区二区在线观看av| 中国色在线观看另类| 成人理论电影网| 欧美日韩亚洲另类| 日韩精品乱码免费| 一级女性全黄久久生活片免费| 中文字幕在线观看不卡| 99视频在线观看一区三区| 欧美精品一卡二卡| 麻豆久久久久久久| 午夜精品爽啪视频| 亚洲永久精品国产| 日韩理论片网站| 成人欧美一区二区三区小说| 久久先锋资源网| 欧美精品一区二区三区四区| 国产不卡视频在线观看| 欧美精品久久一区| 久久精品久久99精品久久| 亚洲444eee在线观看| 亚洲自拍偷拍av| 亚洲色图一区二区| 亚洲三级在线播放| 国产精品国产馆在线真实露脸| 国产欧美一区二区精品秋霞影院| 99精品一区二区| 精品日韩在线观看| 波多野结衣视频一区| 日韩欧美一区二区免费| 高清shemale亚洲人妖| 3atv一区二区三区| 国产成人综合视频| 91精品国产色综合久久| 国产精品自拍在线| 56国语精品自产拍在线观看| 国产一区二区三区综合| 欧美日韩国产色站一区二区三区| 毛片av一区二区| 欧美色涩在线第一页| 精油按摩中文字幕久久| 欧美日韩综合在线| 国产精品中文字幕日韩精品| 欧美日韩不卡一区| 国产福利一区二区三区视频在线 | 亚洲自拍偷拍麻豆| 亚洲国产成人av| 三级不卡在线观看| 在线免费观看一区| 国产专区综合网| 欧美一区二区免费视频| www.亚洲在线| 国产日本一区二区| 国产精品久久毛片av大全日韩| 亚洲欧美日韩久久精品| 亚洲乱码国产乱码精品精的特点| 亚洲午夜在线观看视频在线| 性久久久久久久| 久久9热精品视频| 欧美一卡二卡在线观看| 99re这里只有精品首页| 中文字幕第一区| 综合在线观看色| 天天综合天天做天天综合| 日本高清免费不卡视频| 国产一区二区三区香蕉 | 99久久精品免费看国产| 国产精品午夜免费| 亚洲人成人一区二区在线观看 | 亚洲三级小视频| 午夜视频在线观看一区| 欧美日韩国产首页| av在线不卡电影| 亚洲欧洲精品一区二区三区| 亚洲宅男天堂在线观看无病毒| 免费人成在线不卡| 日韩三级在线观看| 国产欧美一区二区在线观看| 夜夜揉揉日日人人青青一国产精品| 天天综合色天天综合色h| 国产麻豆日韩欧美久久| 久久综合色8888| 亚洲欧美视频在线观看| 青青草国产精品97视觉盛宴| 欧美一区二区久久| 国产欧美日韩卡一| 午夜精品国产更新| 91精品国产综合久久久久久 | 中文字幕av资源一区| 亚洲激情在线激情| 黄页网站大全一区二区| 久久久亚洲午夜电影| 亚洲视频一区二区在线| 美女高潮久久久| 久久久噜噜噜久噜久久综合| 亚洲色图都市小说| 久久99精品国产.久久久久久| 欧美精品一区在线观看| 亚洲品质自拍视频| 国精产品一区一区三区mba桃花 | 色婷婷激情久久| aaa亚洲精品一二三区| 亚洲伦在线观看| 欧美日韩国产a| 中文字幕+乱码+中文字幕一区| 天天综合天天综合色| 欧美一卡二卡三卡| 亚洲色图视频网站| 国产一区二区三区黄视频 | 亚洲超丰满肉感bbw| 日韩一级精品视频在线观看| 国产精品久久久久久久久久免费看 | 91精品国产福利在线观看 | 欧美一区二区久久久| 综合色中文字幕| 国产精品亚洲成人| 亚洲天堂福利av| 欧美色大人视频| 亚洲国产精品传媒在线观看| 久久精品国产精品青草| 国产精品素人视频| 欧美无乱码久久久免费午夜一区| 久久久久久电影| 日韩精品一级二级| 国产农村妇女毛片精品久久麻豆 | 亚洲成a人在线观看| 精品盗摄一区二区三区| 亚洲成人激情av| 久久久精品天堂| 蜜桃视频免费观看一区| 中文幕一区二区三区久久蜜桃| 欧美中文字幕一区二区三区 | 99re这里只有精品首页| 日韩制服丝袜av| 欧美国产精品中文字幕| 欧美少妇xxx| 亚洲天堂2016| 99久久国产综合精品色伊| 三级精品在线观看| 国产精品视频yy9299一区| 欧美卡1卡2卡| 玉米视频成人免费看| 99riav一区二区三区| 蜜桃一区二区三区在线| 亚洲天堂网中文字| 精品黑人一区二区三区久久| 色天使久久综合网天天| 国产精品久久久久婷婷二区次| 丰满岳乱妇一区二区三区|