19歲華裔女孩,融資1.26億元
圍繞高質量數據的爭奪,正成為AI產業鏈中最激烈的賽道之一。一家由19歲華裔女孩創立的美國初創公司 Datacurve 完成了 1500萬美元A輪融資,由 Chemistry VC 領投,Y Combinator、Afore Capital、Homebrew 等知名機構跟投,多位來自 DeepMind、OpenAI、Anthropic、Vercel、Coinbase 的高管個人參與其中。更早之前,該公司已經融資270萬美元。
Datacurve 的崛起并非偶然。在大模型爆發的背景下,AI企業普遍陷入“算力、算法、數據”三要素的博弈之中——算力的競爭被巨頭壟斷,算法的突破門檻極高,而數據,尤其是高質量人工標注數據,成了創業公司能切入的少數機會之一。
海外,數據標注公司成為這波AI熱潮中資本布局的重要類目。今年6月,Meta斥資 14.3 億美元入股 Scale AI,使其估值攀升至 290 億美元。一個月后,Surge AI 被曝正計劃以 250 億美元估值融資 10 億美元,而這家公司去年營收剛剛突破 10 億美元。
這場百億美元估值的盛宴,到底是透支未來,還是預支下一個時代?
19歲女孩融資1.26億,當起“賞金獵人”
“這是我們投資過增長最快的初創公司之一。”Chemistry VC合伙人Mark Goldberg如是評價Datacurve。
這家由19歲華裔女孩 Serena Ge 于2024年創立的公司,僅用一年時間便從Y Combinator孵化器走出,拿下了包括 Chemistry VC、Afore Capital、Homebrew 在內的多家知名機構的支持,累計融資額高達 1770萬美元(約合人民幣1.26億元)。參與投資的名單里,既有 Coinbase前CTO Balaji Srinivasan,也不乏來自 DeepMind、OpenAI、Anthropic、Vercel 等AI巨頭的高管。對于一家成立不到兩年的數據標注公司而言,這樣的融資速度可謂驚人。
Datacurve的靈感源于Serena在AI獨角獸 Cohere 實習的經歷。期間她發現受限于成本等原因,AI標注公司不會招聘高素質的軟件工程師來做最基礎的數據標注工作,因此AI公司很難獲得專家級的標注數據。
“大模型之所以存在瓶頸,就是因為缺乏豐富的、精心挑選的高質量標注數據。”于是,Datacurve嘗試重構數據服務這門“苦活累活”的生意。
區別于依賴大量外包工人的傳統數據標注模式,Datacurve采用了一種更“賞金獵人”系統——通過平臺 Shipd,吸引全球熟練的軟件工程師參與數據生成與驗證任務。工程師可以選擇算法、測試、UI/UX等不同類型的挑戰,每完成一個任務即可獲得5至50美元的獎勵。公司目前擁有超過 1400名注冊工程師,累計發放賞金已超 100萬美元。
但金錢激勵并非核心,數據標注的報酬永遠低于軟件開發等服務。因此,Serena認為Datacurve更像是在運營一款用戶社區型產品,而非傳統的數據標注流水線。通過游戲化機制與績效排名提升數據質量,讓貢獻者在“玩中做數據”。
這種模式的高效已在市場端得到驗證——公司成立兩個月即實現營收破百萬美元,如今已為全球超過一半的基礎模型實驗室以及 Facebook、蘋果、亞馬遜、谷歌等企業提供高質量代碼數據,用以訓練下一代大型語言模型。
“garbage in,garbage out”
在AI訓練中,數據質量的重要性不言而喻。通俗來講,“garbage in,garbage out”(垃圾進,垃圾出),這也意味著,模型智能提升顯然離不開高質量數據供給。
除了Datacurve,美國今年還出現了兩家估值超過百億美元的數據標注公司。
今年6月,Meta以143億美金收購Scale AI 49%股權,公司估值接近290億美元。盡管兩周后,Scale AI內部出現人員協作困難,導致客戶流失,但AI數據服務領域已經成為全球關注焦點。與此同時,競爭對手Surge AI傳出計劃在公司歷史上首次融資,籌集高達 10 億美元,目標估值高達250 億美元。
Surge AI的創始人Edwin Chen 同為華裔,此前擔任過谷歌和 Meta 工程師。值得一提的是,在融資消息傳出前,Surge AI去年營收超過 10 億美元,超過了 Scale AI,后者同期營收為 8.7 億美元。
數據標注本質上是要把大量機器無法理解的非結構化數據翻譯成機器能理解的結構化數據。隨著強化學習(RLHF)在人工智能系統的訓練中變得越來越重要,對精細標記、細致入微的數據集的需求也日益增長,圍繞著數據標注和處理的預算也在飆升。
Edwin Chen 認為人工智能有能力“創作出獲得諾貝爾獎的詩歌,解決黎曼猜想,并發現宇宙的秘密”——但前提是它接受的數據訓練能夠捕捉人類的專業知識、創造力和價值觀。他告訴《時代》雜志:“真正高質量的數據對人工智能和通用人工智能的未來至關重要。”
因此,Surge AI沒有采用傳統的人力外包模式,而是搭建高技能承包商網絡,通過復雜的技術和算法體系,進行質量控制、反作弊以及優化工作流程,最終交付高質量的數據產品,而非僅僅是人力資源。據悉,Surge AI已經與超過100萬名承包商合作,創建并向谷歌、Anthropic 和 OpenAI 等公司出售高質量的數據集。
隨著后訓練數據需求變得越來越復雜,更輕盈的組織結構和更具參與感的平臺生態顯得越來越重要。Surge AI、Datacurve等公司的崛起恰恰在于,它將這一低附加值行業“產品化”,讓專業人群以興趣和挑戰感參與數據生產。某種意義上,把“人力數據”做成一項可擴展的數字經濟服務。
作為一家早期公司,Datacurve目前專注于軟件工程領域,但Ge表示,他們的模式同樣適用于金融、市場營銷甚至醫療等其他領域。Ge總結道:“我們正在做的是,創建一個能夠吸引并留住各個領域高水平專業人士的后訓練數據收集基礎架構。”
百億美金估值,虛高還是先行?
百億美元的估值,放在任何時代,都是一場豪賭。
截至目前,Surge AI的巨額融資還沒落地,原因或與投資者對數據標注領域的考驗有關。
一些投資者認為數據標注是人工智能發展的持續必需品,并預測領先的人工智能實驗室將持續提供這一需求。另一些人則擔心,隨著人工智能技術的進步和對人工標注需求的減少,該行業的低利潤率和對人力的依賴可能會使其容易受到自動化的影響。
據《The Information》與 Sacra 的公開數據,Scale AI 在 2024 年營收約 8.7 億美元,最新估值約 290 億美元,對應的市銷率約 33 倍;而Innodata 在同年營收 1.7 億美元、市值 12 億美元左右,市銷率約 7 倍。 相比之下,Surge AI 雖然尚未完成新一輪融資,但市場傳出的目標估值在 150 億至 250 億美元之間,而公司2024 年的營收被多家媒體報道“超過 10 億美元”。若按此區間估算,其市銷率大致在 15 至 25 倍之間。
這樣的倍數雖然處于硅谷高成長企業的常見區間,但在傳統數據服務行業中已屬極端高估。
市場普遍認為,這反映的是投資人對 Surge AI “數據基礎設施化”潛力的押注,而非當下盈利能力的真實映射。
Surge AI 被視為能持續生產“專家級訓練數據”的關鍵基礎設施,其客戶名單中包括 OpenAI、Anthropic 等核心實驗室,這一綁定關系讓資本愿意提前支付未來數年的增長溢價。
然而,這一邏輯的前提是“稀缺性”能夠持續。如果AI自監督學習、自動標注、合成數據技術繼續提速,那么對人工標注的依賴將不可避免地被削弱。所以,高質量數據的確是AI的剛需,但這是一個既永恒又脆弱的生意。
利潤率則是另一個現實考驗。根據 The Information 報道,Scale AI 在 2024 年的營收約 8.7 億美元,但凈利潤不足 1 億美元。Surge AI 雖然宣稱已實現盈利,其利潤率同樣受制于人力與審核成本。
而在太平洋的另一側,中國的數據標注產業卻顯得格外冷靜。與美國平臺化、SaaS化的高估值模式不同,國內企業仍以項目制服務為主。在可復制性與利潤空間上均受限。究其根本,賣數據庫這個商業模式在國內并不容易獲得資本的青睞。
盡管如此,高質量數據仍被視為AI時代最核心的資產。
獨特、垂直、難以復制的數據資源,是未來AI企業構建護城河的關鍵。公眾擔憂的“數據枯竭”其實是一個偽命題——真正未被開發的金礦,存在于企業內部長期沉淀的非公開數據中。未來AI訓練的競爭,將不僅在于誰擁有更多數據,而在于誰能更快地把數據轉化為模型可理解的知識。
如果說 Surge AI 和 Scale AI 的估值反映了硅谷對“數據即服務(Data as a Service)”的未來信念,那么這種信念也面臨最嚴峻的檢驗。在AI的金礦里,賣鏟子的人從不缺市場。真正的問題是,誰能制造下一代的鏟子?
猜你喜歡
19歲華裔女孩,融資1.26億元
這場百億美元估值的盛宴,到底是透支未來,還是預支下一個時代?

東四十條資本



