“希爾貝殼”做好AI數據基礎服務,實現人工智能民主化,我們任重而道遠
人工智能時代已然來臨,伴隨著人工智能在各個場景中的落地應用,算法、算力不再是高壁壘,為了不斷提高算法精度,算法所必須的數據需求也空前爆發,一度催生了AI基礎數據服務行業的繁榮。
行業繁榮的景象之下,還存在著一些問題,由于AI基礎數據服務的數據標注業務相對門檻較低,玩家魚龍混雜,使行業標準模糊,服務質量參差不齊。目前多以人工標注為主,傳統標注工廠在“人工成本”方面的優勢正不斷被削弱。因此,增強數據處理平臺持續學習和自學習能力,利用機器學習輔助人工提升標注維度和精度,同時降低人工成本已經成為產業共識。另外,數據采集層面,針對數據源的版權問題、采集標準問題還沒有很好解決;數據庫的建設及服務還保持著一定的壁壘,通用場景的AI技術不斷成熟,如何建設高精尖數據庫在行業當下也需要去解決。
希爾貝殼成立于2017年,深耕場景AI數據服務經歷了4年的發展,做好數據服務的技術創新同時并開始思考數據產業的下一步方向,何去何從。
疫情肆掠過后,人工智能應用落地速度加快,而這背后,身處AI基礎數據行業的希爾貝殼也在加速前行。
用機器輔助做數據標注切入AI基礎數據服務行業
希爾貝殼創業初始聚焦語音數據服務,和創始人的背景密切相關。希爾貝殼CEO卜輝從韓國高麗大學AI實驗室碩士畢業后,就一直從事智能語音技術及數據庫建設方向的工作,對語音數據庫以及語音智能產品有著深入的研究。
AI的算法需要大量帶標簽的數據,數據標注則是由人工為主導,在“有多少人工就有多智能”的產業背景之下,革新技術,行業標準和門檻的提升則顯得更為迫切。
在人工智能快速迭代更新的節點,卜輝發現AI技術成本的變化速度驚人且市場競爭激烈,“比如一套通用AI系統相比一年前,價格基本折了三分之一,但是成就技術的數據并沒有貶值。相反,數據處理、采集和加工的人力成本越來越高”。
在這樣的背景下,智能化輔助標注平臺顯得尤為重要。這和卜輝最開始切入行業的初衷不謀而合。希爾貝殼的數據標注平臺在工作高峰期擁有上萬人在并行做數據標注的工作,如何在降低人工成本的情況下保證數據質量,卜輝認為,應當基于一個強大的智能化工作平臺,通過完善算法模型和利用大數據分析來提高數據質量的管控和質檢,將重復的標注工作做到智能化管理,提高數據標注效率。成熟的算法好比智能車間里的機器人,大數據分析系統好比智慧大腦在24小時做項目管理工作。
對此,希爾貝殼2018年研發并應用了四套智能標注系統來降低數據處理的成本:語音數據質量評測系統、語音自動標注系統、音頻檢索系統、智能化標注眾包大數據分析系統。在數據任務分發、自動糾錯、數據質量跟蹤上,提高了數據標注的效率降低了1/3的人工成本,實現從人工到技術,再讓技術輔助人工完成高效的標注工作。
但卜輝對數據的思考并不止于此,“讓懂技術的人去做數據,可以看到數據完整的生命周期。另外在數據采集方面,要確定版權除了人為的協議,還需要技術的加持,我們已經在開發電子認證、數據加密,既要考慮版權也要重視數據流通的安全。”在卜輝看來,好的數據能夠幫助算法更好的去落地。
對此,希爾貝殼還擁有自建數據庫的能力,并根據不同應用場景定制優質的數據庫,以提高深度學習的算法精度,精準解決產品在場景下的技術痛點。
開源語音界的“ImageNet”
自建數據庫,是希爾貝殼創立之初就帶有的基因,經過4年的探索之后,卜輝越發地重視數據庫的業務,高精尖數據庫的研發投入也不斷擴大。并且在2019年,與西北工業大學音頻語音與語言處理研究組聯合成立“智能語音與多模態數據實驗室” 。
目前,希爾貝殼的客戶包括阿里、騰訊、京東、聯想、百度等,“大部分客戶更多的合作在于希爾貝殼的數據采標方案、數據的質量和專業的服務上。”此外,希爾貝殼持續在數據開源的項目上做投入,目前開源的數據庫申請規模已經達到了500+,實現了我們開源數據助力產學研共同發展的目的,在希爾貝殼的品牌建設上也樹立了口碑,在業務上也給希爾貝殼開拓了新的方向。而卜輝提到的開源數據項目,就是AISHELL系列的精標語音數據集。
基于語音識別、聲紋識別、音頻檢索等語音相關技術,希爾貝殼成立之初就開源了178小時的AISHELL-1中文普通話精標語音數據集。同時搭載全球最大開源語音識別系統Kaldi做了一套開源方案,將有研發價值的數據貢獻到科研教育機構。
AISHELL-1開源之后,卜輝發現,高校學生在使用這套方案的同時,很多中小型企業也在利用它進行語音識別技術的研發和產品相關研究,但效果就偏弱了一些。
因此,在2018年6月23日Kaldi第三屆全國線下技術交流會上,作為聯合主辦方之一的希爾貝殼再次開源了全球最大的中文開源數據庫AISHELL-2,時長1000小時。這個開源項目不只局限于數據,還包括Kaldi配套的recipe應用。同時成立了AISHELL Foundation來共同推進語音數據和技術的不斷開源計劃。
AISHELL-2由1991名來自中國不同口音區域的發言人參與錄制,文本內容主要涉及喚醒詞、語音控制詞、智能家居、無人駕駛、工業生產等12個領域。并經過專業語音校對人員轉寫標注,通過了嚴格質量檢驗,數據庫文本正確率在98%以上。
AISHELL-2是全球最大的中文語音數據開源項目。也正是因為這次開源,不僅讓希爾貝殼被業界所知曉,更是讓讓希爾貝殼收獲了全球的智能語音研究高校合作資源。 “AISHELL-2的開源項目,確定了數據開源的模式,即算法方案、優質的數據集、實驗系統的描述這三個維度來做方案,讓開源項目能夠惠及更多的開發者。對比CV領域ImageNet這樣的開源數據庫,我們做的還遠遠不夠,但我們會持續做下去,也希望整個產業有更多的人來貢獻。”卜輝強調。
據悉,ImageNet是由李飛飛等人在CVPR 2009一篇論文中推出,ImageNet數量之大,質量之高都是空前的。它包含標注過的1500萬張圖片,涵蓋22000種類別,旨在教計算機通過圖像認識這個世界的多樣性。ImageNet的出現也被業界視為計算機視覺的新起點。
數據庫做為數據產品需要經歷投入成本、市場認可、數據庫質量三個維度考核,這也形成了數據庫的建設壁壘。AISHELL中文普通話精標語音數據集的建設與開源也驗證了希爾貝殼自建數據庫的能力。希爾貝殼目前已完成了語音識別、聲紋識別、語音合成、場景語音喚醒,形成了智能語音技術+數據的矩陣開源方案。
數據服務的創新思考:算法和數據的辯證關系
在不斷拓寬業務的深度和廣度的同時,卜輝更著重思考業務背后的技術邏輯,如何用技術助力和創新業務。創業期間,卜輝一直在思考數據標注、數據采集、數據庫和算法之間的聯系。在卜輝看來,數據和算法之間是一個辯證的關系,數據是算法的基礎,但開源的算法也為數據質量助力,此外,數據庫的建設也需要有前沿算法的意識。“因為數據庫是為算法和應用層服務的,在對算法有一定的了解背景下去做數據庫,則更為清晰。另外,技術落地數據先行是一個必然的趨勢。當技術逐漸成熟后科研人員更聚焦用數據去驗證技術。“
在AI基礎數據服務行業中,希爾貝殼已經擁有了成熟的兩大業務形式,包括數據集產品(自建并開源數據庫)和數據需求的定制服務(數據采集/標注)。卜輝說道:“做好場景下的數據采標,垂直在場景建數據庫,已經成為希爾貝殼的特色和亮點。在AI新基建的路上,非結構化數據的管理、標注、分析、安全等還有很多問題需要解決,基礎數據服務要跟上產業的發展投入研發拓展創新,才能真正做到服務產業服務好產業。”
盡管身處在AI基礎數據服務行業,但從希爾貝殼的4年發展路徑來看,聚焦場景化數據業務,其對人工智能數據的思考和創新不止于此,這和創始人卜輝的創新思維有很大的聯系。在獵云網采訪期間,卜輝一直強調,創新的力量,“盡管數據服務屬于人工智能產業的基礎層,越基礎越要做到扎實,思考不能局限在這一層,從產業的角度去思考和改變,不斷提升我們的業務能力。“
在卜輝看來,希爾貝殼用4年的時間做數據層面的創新只是第一步。談及未來的規劃,卜輝說道:“通過技術引領數據業務的發展,通過數據帶動技術產業的成熟,在未來用前沿的數據庫去服務開發者和科研人員,降低企業在算法落地層面的成本。還要用更多的開源數據與教育、研發、產品等相結合讓技術落地走進更多的場景,為實現人工智能民主化希爾貝殼還需要更努力。”
猜你喜歡
“希爾貝殼”做好AI數據基礎服務,實現人工智能民主化,我們任重而道遠
數據和算法之間是一個辯證的關系,數據是算法的基礎,但開源的算法也為數據質量助力。