思必馳迎來產品化全面收獲期,堅定源頭技術創新及研發
自成立以來,思必馳通過“終端+AI”、“行業+AI”等方式深度賦能各行業場景,促進諸多應用落地。
作為一家對話式人工智能平臺公司,思必馳深諳“技術為王,創新為本”的重要性。
如今的思必馳擁有全鏈路的智能語音語言技術,自主研發了新一代人機交互平臺(DUI)和人工智能芯片(TH1520);為車聯網、IoT及政務、金融等眾多行業場景合作伙伴提供自然語言交互解決方案。
憑借雄厚的AI技術實力與廣泛的產品落地業務,2020年,思必馳完成Pre-IPO輪融資,隨后完成股份制改造。
此時的思必馳,依然保持沉著,穩中求進地進行著核心技術的研發與升級,并探索更多場景的落地。
升級與進化:讓交互有溫度,讓使用更便捷
2021年,思必馳在多項核心技術上取得進展。在保持這一良好發展勢頭的同時,今年以來,思必馳繼續不斷突破自我。
發音人音色定制平臺
音色,是每個人獨有的聲音特色,也是虛擬人表達情感、對外溝通不可或缺的部分。強大的音色定制能力讓虛擬偶像更為鮮活。然而,當前市場上傳統人工合成音色定制服務通常流程較為復雜,技術門檻較高,需要大量人力相互配合,定制成本與定制周期也讓很多使用者望而卻步。
今年3月,思必馳推出易操作的發音人音色定制平臺。該平臺是思必馳提供的一項進行音色定制訓練的平臺服務,旨在賦能用戶自主完成語音合成音色模型定制,降低語音合成定制門檻。使用者只需要根據自身場景需要,上傳一定量符合規定標準的音頻,即可一站式完成自動標注、模型定制、質量評測。
目前,該平臺支持定制中英文、成人男女、兒童等類別,以及幽默、嚴肅、甜美、中性等各種情感風格的音色,可以滿足客戶在在消費電子產品、明星動漫熱門IP、數字人客服、有聲讀物、新聞播報等多個領域的應用需求。
DUI標注訓練一體化平臺2.0
為幫助企業在智能化轉型中,擁有更高的技術自主性,思必馳曾推出DUI標注訓練一體化平臺,通過平臺化的方式開放智能語音算法能力,賦能不同類行業/企業在使用語音服務中,擁有數據標注、模型訓練能力,持續提升場景識別效果。目前平臺提供語音技術定制化服務,在會議、航空通訊、醫療、城市交通、門店質檢等垂直場景里運用。用以提升企業服務、管理效率。
而經過一年的使用實踐,目前平臺也迎來了2.0的版本升級。升級后,公有云版正式開放,同時推出便攜一體機版本,擁有更強的擴展性,隨用隨調,使用更便捷。更低的平臺使用門檻,減輕研發人員投入。升級后的平臺支持公有云、私有云、便攜一體機等多種靈活的接入形式,服務均可定制化。
接下來,思必馳DUI標注訓練一體化平臺將持續深入語音識別優化鏈路,持續推動DUI平臺從“服務賦能”向“能力賦能”轉變,賦予用戶更大的自主權。
直面喚醒+智能降噪+聲紋識別
針對在全屋智能一體化家居場景或賣場場景下多設備的情況,思必馳新推出“直面喚醒”方案,通過模擬人耳的算法模型可以幫助用戶優先喚醒其中某一個設備,避免幾個設備同時被喚醒,判斷更精準、更符合用戶的交互習慣。該方案近期也入選了長三角2021年度人工智能產業“十大科技事件”。
在綜合運用信號處理、回聲消除、聲源定位等技術,并且配合AI語音專用芯片TH1520及麥克風陣列,思必馳在家居、車載、辦公等多領域落地了智能降噪案例,憑借強大的AI性能,提升語音通話質量,為用戶帶來更純凈的語音交互。
值得一提的是,疫情之下,聲紋識別技術填補了遠程身份驗證的市場需求,在銀行數字化轉型里大放異彩。除了作為全新的身份認證“活密碼”為金融安全保駕護航,思必馳聲紋識別技術更在出行場景中,有了新嘗試。
運用于電動兩輪車領域的思必馳聲紋解鎖方案誕生,讓出行更自由。基于固定文本+隨機驗證碼認證,融合文本相關和文本半相關的聲紋識別方案,獲得了比固定文本更高的聲紋識別率,且有效防止被提前錄音,具備了更高的安全性。
成就與榮譽:從算法到芯片,多項技術均獲行業認可
經過多年的積累與沉淀,思必馳擁有全鏈路的智能對話核心技術。強大的技術創新能力,也讓思必馳的多項語音技術均獲得行業認可。
在各項榮譽里,今年2-3月,思必馳連續登頂中文醫療權威榜單CBLUE2.0。
在各類賽事上,思必馳也屢獲佳績。思必馳-上海交大人機交互聯合實驗室團隊(AISP-SJTU,下稱:聯合實驗室)在繼去年6月份取得Text-to-SQL任務英文基準榜單Spider第一名后,今年4月又取得Text-to-SQL任務中文千言榜單第一名。就在2022年國際口語機器翻譯評測比賽(簡稱IWSLT)中,聯合實驗室憑借卓越的技術優勢,獲得“英-中同聲傳譯”(Speech-to-Text)賽道冠軍。值得一提的是,IWSLT是國際上最具影響力的口語機器翻譯評測比賽之一,今年設置了同聲傳譯、離線語音翻譯等7個任務。
在學術交流中,聯合實驗室在相關方向的頂級國際會議上已發表多篇論文。例如,針對Text-to-SQL任務中用戶問句和數據庫模式的聯合異構圖編碼挑戰,提出了基于線圖增強的LGESQL模型,相關成果發表于ACL 2021主會;針對單輪問答式Text-to-SQL任務不同領域之間,由詞表差異引發的領域遷移和泛化問題,提出了ShadowGNN模型,將結構和語義信息解耦,相關成果已發表于NAACL 2021主會等等。
而在行業標準與測評中,思必馳先后參與國家標準《中文語音合成互聯網服務接口規范》與行業標準《中文語音合成服務系統評估規范》的制定,并成為全國首批通過評估測評的公司之一。
思必馳中文語音識別系統、聲紋識別服務、智能對話等多項技術均通過中國信通院認證,獲得《語音識別服務能力專項評估證書》《聲紋識別服務能力基礎評估證書》《智能對話系統等級評估證書》《智能對話產品評估能力證書》。
這些成就與榮譽的達成,與思必馳堅持產學研一體化道路緊密關聯。
此前思必馳在智慧辦公產品發布會上表示,將堅持從三大方面做對話式人工智能技術:
一是全鏈路語音交互技術,覆蓋從信號處理、語音識別、語音合成到語義理解、對話管理等鏈路,從感知智能走向認知智能;
二是堅持軟硬一體化,配套算法技術方案,協同自研AI芯片,思必馳為大量產品做了軟硬件協同優化;
三是大規模可定制,基于自研的大量遷移學習技術,從對特定場景或設備進行快速定制。
落地與破局:“終端+AI”、“行業+AI”兩手抓
自成立以來,思必馳已通過“終端+AI”、“行業+AI”方式深度賦能各行業場景,促進諸多應用落地。
與此同時,思必馳也在不斷修煉內功,探索提升自身的產品力。
除了在智能家居、智能汽車、消費電子等領域探索,思必馳更在AI+新場景思路下不斷嘗試,今年在智慧辦公領域也帶來別樣驚喜。
今年2月,思必馳拓展在智慧辦公領域的探索,針對個人用戶,推出了靈活便攜的智能硬件產品360°降噪會議麥克風音箱,聚焦在遠程辦公、線上學習的使用場景,目前已上線京東售賣。
5月,思必馳又發布了智能會議解決方案,賦能政企邁入智慧辦公新發展階段。
針對政企用戶的數智化辦公升級,推出智能會議解決方案及智能辦公終端產品AIMIC-M12、轉寫一體機T1,帶來通話降噪、收音擴音、實時語音轉寫等服務。
無論是針對個人用戶的會議麥克風音箱,還是針對政企服務的智能會議解決方案及產品,無不說明著,在車載和家庭兩大消費市場排兵布陣后,思必馳對于社會生產生活、政企服務領域的重視和展望。
據相關數據顯示,2020年的智慧辦公行業市場規模達548.5億元,年復合增長率高達14.5%。未來五年,預計中國智慧辦公行業將以12.8%的增長率持續增長,并于2023年達到829億元左右的市場規模。
路漫漫其修遠兮,思必馳又將如何“上下求索”,時間自有答案。