華映“幾面之緣”投了數千萬,80后掘金數據閉環
近一年來,數據標注賽道呈現了一些不同。
在企業端,相較年初,相關賽道玩家融資宣發變少了,資本似乎變得更理智;在“民工”端,數據標注員的工資繼續走低,在“月入不過5000,單價從5毛降到4分”的收入變化下,似乎預示著簡單的數據標注將會被AI取代。
投資人Jerry說,大家現在已經不單獨談數據標注的概念,而是升級談更火的數據服務。例如,圍繞數據服務新增業務,給大模型公司主動提供數據,或者和大模型公司一起服務于主機廠。
跟隨產業發展,不難發現,數據標注的概念和服務內容在升級,玩家們也在復用其原有的管理體系、研發能力等,去解決圍繞數據的行業痛點,結合行業變化來逐步拓寬業務范圍。
事實上,Jerry所言早有全球數據標注領域的先驅Scale AI在踐行。
這家估值73億美金獨角獸,成立于2016年,核心業務就是數據標注,通過快速捕捉AI行業趨勢推新,已從自動駕駛場景起家后切入政府、電商、機器人、大模型等場景,提供各類工具、平臺和服務。
而在國內,也有這么一家先行者,它僅次于Scale AI一年后成立,創辦伊始就獲得了水木清華校友基金、老鷹基金、天使灣創投等5家機構進行天使輪“團購”,隨后青銳創投、華映資本、厚天資本、瑞夏投資更是相繼押注。
它便是以自動化解法切入AI數據標注和數據管理服務的星塵數據。
80后數據科學家回國創業,以自動化做解法
星塵數據掌舵者,是80后數據科學家章磊。
星塵數據創始人兼CEO 章磊
在海外就職期間,章磊先在華爾街做數據量化,后又去硅谷做自動化投資相關的算法工作。期間,他在華爾街工作期間開發的底層風控算法曾被美國聯邦儲蓄局作為壓測標準,在硅谷開發過世界首款股權投資機器人。
回國后,章磊第一次創業,是以CTO的身份做了一家與自動化投資策略相關的公司,該項目需要通過大量NLP(自然語言處理)的數據來進行投資決策,當時投資年化已做到100%。
也正是這次創業,讓章磊基于對數據標注的大量需求,與數據堂、龍貓、百度這些數據標注公司打起交道,卻意外發現供給側與需求側的極大gap。
他看到,自動化投資需要數據側和算法側能夠進行深入交流,即數據策略,僅僅按每人每天進行數據標注并不能解決算法工程師的問題。另外,由于標注工具簡陋不好用,標注員產能也不高,既無法滿足企業的工期需求,也無法提高標注員的個人收入。
當時在供給側端,數據標注公司理念還停留在低認知、低附加性屬性的人力外包模式,更多是在賺取人力差,而算法側本質需求是隨時協同迭代,這就導致商湯曠世百度等高認知的早期AI公司只能內部自建標注、數據生產的管道。
章磊坦言,雖然從人力或銷售端來切入,可以對人力進行標準化的培訓操作上崗,通過職高院校之類的合作來降低人員供給端的成本,但這對于國內數據標注行業來說治標不治本。
當時,他就有一個判斷,這種靠人力差價的生意最終會隨著自動化技術發展而因為純粹靠人力而失去成本優勢,甚至會虧損。
在低進入、高認知的行業門檻特點下,章磊認為,從長遠考慮,自動化才是更優解。
“Autolabeling本身是一套組合拳,里面有很多細節,譬如對感知決策、大模型的任務所需要的自動化完全不一樣,需要有很高的算法認知去用最新的技術來解決問題,并且把它落地產品化,成為可復制的工具鏈。目前行業內玩家不具備這樣的能力,更多是在銷售端或運營端有一些優勢。”
為此,逐鹿數據標注再創業,基于團隊的算法以及硅谷背景,章磊決定“從甲方出來解決甲方問題”,從三方面出發。
一,成立一個算法認知的團隊去真正解決行業痛點,具備數據策略專家的能力;二,用工具鏈去做好數據服務,包括數據閉環管理的工具、數據標注、項目管理、數據檢索等輔助功能,打造云端工廠的概念;三,讓數據處理可以極大被自動化,提高到50%至90%甚至以上,形成一個高度自動化的數據生產管道的終局。
于是,有別于人力服務型數據標注企業,想在國內走出Scale AI之路的星塵數據于2017年應運而生。
以AI全生命周期的數據閉環為基座,把數據價值產品化
從Scale AI的發展態勢來看,自動化這條路一旦走通,具備領先優勢后可以一招鮮占領生態位,但也并不好走。
算法層面需要根據產品的反饋和用戶實際的人因工程來分析進行優化,除了團隊要具備能力基因外,還需要以最后實際落地成果來進行驗證,譬如其標注的數據策略、工具鏈的優化、產品形態、算法能不能夠跟上等。
星塵的商務和項目團隊每次跟客戶溝通和pitch時,都被要求跟客戶認知在同一水平,成為行業的數據策略專家。
“特別是大模型的公司,因為其數據生成面臨著很多不確定性和變化,就需要能夠通過數據策略找到各種問題,并且和客戶反饋并商量去優化最終效果,以模型效果為目標去發力,提升客戶算法效果。”
過去6年,星塵數據在行業從野蠻生長行至盈利爬坡的過程中也沒少踩坑,但也正因此,在服務50多家車企和自動駕駛公司、經歷上千個項目打磨后,在點滴中積累了算法和產品的迭代能力,其自動化標注平臺Rosetta平臺現可提供數百個標注功能,支持4DBEV、圖像、點云、文本、語音、采集等在內的100+種主流標注場景。
其中,星塵數據的數據閉環解決方案是其Rosetta3.0平臺的一大亮點。章磊透露,今年年底,星塵數據即將發布全新的AI數據管理平臺MorningStar,打通數據落盤、流程編排、數據管理、數據檢索、難例發現、數據送標、算法管理、推理管理等機器學習閉環全鏈路,持續提升算法迭代速度。
在一個完整的數據閉環中,客戶可使用星塵數據提供的離線數據包進行基礎版模型訓練,星塵數據標注系統通過API與客戶算法系統進行交互,動態感知客戶模型效果,基于模型各版本迭代,在經歷幾次迭代后,不僅沉淀了有效數據,還節省了數據成本。
同時,星塵數據還可以在海量數據中找到真正有價值的數據幫助客戶訓練模型,并利用自有Benchmark數據集評測模型效果。模型上線后,行車數據可用于模型迭代,形成數據閉環。該方案通過打通星塵數據標注系統和客戶算法系統,實現主動學習、分批訓練和動態發掘有價值數據,從而降低數據標注規模,節省標注成本。
星塵數據AI數據管理平臺Morningstar
據悉,具備算法認知和迭代能力的產品(簡稱技術迭代能力)的客戶,譬如自動駕駛感知決策賽道上的Tier1自動駕駛公司和造車新勢力等頭部技術客戶,以及大模型企業,往往傾向于自研整個數據閉環的工具鏈,把一小部分工作通過找供應商來合作。星塵數據通過技術匹配及形成閉環,就能快速達成合作。
而不具備技術迭代能力的傳統車廠等腰部技術公司,則非常依賴于供應商去合作組建數據生產線。雖然增量很大,但其理念和合作方式上沒“整明白”,導致數據側和算法側都沒有很好的一個合作方式。
通常情況下,往往技術側60分的車廠想要采購90分的供應商,價格又得是行業最低,但數據側做到90分的前提是技術測也要90分,不然又跑不動,這就需要星塵去協同打造數據生命周期管理的數據閉環系統,回歸業務本質來適配以持續創造營收。
章磊透露,目前星塵數據客戶以每年2倍增速在發展,主要服務大模型和自動駕駛。感知決策賽道上已服務了90%頭部自動駕駛企業,AGI方向的大客戶也開始增多,目前已經和多家頭部的大模型客戶達成合作。
星塵已經與華為在DataOps系統方面達成了戰略合作,共同服務于感知決策、通用人工智能等領域,為客戶提供更加完善的數據閉環工具和服務支持。
率先步入下一階段,華映跑來領投A輪
近一年來,隨著數據標注走熱,VC開始尋求標的,愷望數據、曼孚科技、整數智能等賽道玩家陸續官宣融資,星塵數據這個老玩家也在資本助力開始了加速賽。
在2022年5000萬元A輪融資中,華映資本則將橄欖枝扔給了章磊。
彼時,華映資本管理合伙人章高男在看了行業若干個標的后,作為技術創業出身的投資人,便與同樣有著技術背景的章磊一見如故,甚至表示,“這個行業要投就投星塵,要不就不投了。”
在章高男看來,技術足以區別真正的企業家和生意人,企業家懂得如何將技術用于再生產、將盈利用于投資,能目標明確、通過產品化可復制的方式去把這盤棋做大。
于是,在幾面之緣之下,基于章高男對人的敏銳判斷,華映資本領投了星塵數據A輪融資。就在這輪融資中,還有一家VC對星塵后續發展助力頗大,那就是小米生態鏈機構厚天資本。
也正是機構方在管理和戰略上的加持,讓章磊帶領的星塵數據專注于既定路線用技術去解決行業的本質問題,在眼下更具備“抗補貼”的能力。
章磊坦言,隨著數據標注賽道微風漸起,市場愈發激烈,甚至今年形成了以價換市“打補貼”的特殊情況。
“很多玩家為拿資本去搶占市場,或者是拿了資本被要求更激進去搶市場。但這有兩個弊端,一是貼錢后,基于價格壓力很難做好服務;二是今后很難跟車廠談價格。”
在這個過程中,章磊看到,車廠也因為買低入坑,但隨后也吃一塹長一智,逐步轉變采購邏輯,客戶端的認知度在市場教育后也有所提高。
星塵數據合作的一家車廠就是如此。
據悉,該車廠想自己搭建數據工具鏈,剛好有數據標注企業免費提供了一款產品,等于為其省了幾百萬支出。
然而,由于產品中有各種各樣的bug需要處理,車廠不得已又投入了數百萬來改造這款工具來實現真正投產。雖然標注成本紙面上還可以,但因為各種數據出問題導致工期耽誤,項目暫停又啟動,客戶對效率降低而導致的隱性成本支出怨聲載道。最后,為了保證數據的高效生成,這家車廠還是棄而選擇為可用產品付費買單。
“車廠們逐步發現,采購零部件那一套不適合放到軟件上。因為零部件有一些性能指標規范,但軟件特別是數據相關的產品迭代,不可能用一兩個紙面上的指標來評估。星塵跟客戶去做技術匹配和長期合作過程當中,會通過賦能聯合迭代、建模,實現降本增效。”
隨著感知決策以及大模型算法達到了需要不斷去以數據為中心迭代算法和模型的臨界點,章磊認為數據行業也在迎來一場變革,將出現以下三方面發展態勢。
一是純人力型數據標注公司發展空間縮小,在自動化成本達到了跟人力持平、甚至更便宜的狀態后,整體會面臨比較大的紅海競爭。反向要求企業具備研發自動化標注算法的能力和迭代能力。
二是市場亟需數據價值,其不僅在于數據增值和人類反饋,更在于發現指標跟蹤、數據存儲、數據檢索、算法反饋迭代的工具鏈。
三是擁有技術迭代、產品迭代能力的公司,要針對客戶的痛點去解決問題,才能真正立足。同時,玩家們僅靠數據服務做好還不夠,更需要做好工具鏈和自動化算法,星塵數據目前正處于這一階段。
“我們看到數據服務可能很快會出現一些革命性的產品,或者說已經有一些實驗性的結果在頭部實驗室誕生,可以極大降低數據的成本,快速提高模型跨領域的適配性和魯棒性,這種技術也是數據行業下一階段的趨勢。”
接下來,章磊表示,公司將從DataOps全流程進行技術賦能,通過一站式的AI數據管理平臺和數據策略服務,以及具有自動化能力的工具鏈給客戶帶來整體的價值,提升算法最終效果的上限。
(Jerry為化名)