AI語音識別行業發展研究報告
導言:
2020年11月,云知聲向上交所遞交了招股書,抱著成為“國內AI語音第一股”的決心沖刺科創板。2021年2月19日,上交所發布了《關于終止對云知聲智能科技股份有限公司首次公開發行股票并在科創板上市審核的決定》(以下簡稱《決定》),《決定》中提到云知聲主動撤回科創板申請。云知聲終止科創板上市審核并給出官方解釋:“撤回申請是出于公司戰略發展因素考慮,公司并不會放棄IPO,未來會適時考慮重啟IPO的計劃。”
云知聲作為國內最有可能在AI語音賽道上追趕人工智能及語音識別領域中科大訊飛霸主地位的“獨角獸”,其背后作為“推手”的投資機構有著不可忽視的重要作用。云知聲利用機器學習平臺,在語音技術、語言技術、知識計算、大數據分析等領域構建了完整的人工智能技術圖譜,同時云知聲也是國內人工智能創業公司里實現商業化落地最好的公司之一。產業+資本的結合賦予了云知聲高速發展的可能性。
本報告從投融資角度著手,按照行業投資環境、行業投資現狀、行業投資競爭格局及行業投資未來發展趨勢等四個板塊概括性的分析云知聲所在的語音識別領域,簡單解構該行業的投融資活動。
1
概述
語音識別是發展未來人工智能的重要組成部分之一,是達到人機交互目的第一步。語音識別技術簡單來說指的是機器或程序完成接受口令、解釋聲音含義、理解和執行口頭指令所需的技術。在當下智能時代,智能終端的應用普及面越來越廣,相應的越來越多的場景在設計個性化的人機交互界面時,以對話為主的交互形式。而一個完整的對話交互是由過程是由“輸入—分析—輸出”三個環節共同組成一個閉環。其中,“輸入”需要語音識別(Automatic Speech Recognition,ASR)技術;“分析”需要自然語言處理(Natural Language Processing, NLP)技術;“輸出”需要語音合成(Text To Speech, TTS)技術。其中,“分析”環節由編碼和解碼組成,編碼主要用于對輸入內容的特征進行提取;解碼則是通過聲學模型和語言模型進行解析。語音識別技術是對話交互的開端,是保證對話交互高效準確進行的基礎。
語音識別技術自20世紀50年代開始步入萌芽階段,發展至今,主流算法模型已經經歷了四個階段:包括模板匹配階段、模式和特征分析階段、概率統計建模階段和現在主流的深度神經網絡階段。目前,語音識別主流廠商主要使用端到端算法,在理想實驗環境下語音識別準確率可高達98%以上。
2
行業投資環境
2.1行業政策環境
人工智能發展水平一定程度上體現了各國最高的科技水平。考慮到人工智能發展對于國家經濟發展的重要性,中國政府已針對人工智能行業頒布了多項國家層面的發展政策,自2017年以來人工智能行業已經連續三年被寫入《全國政府工作報告》內。具體支持政策包括項目發展基金、人才引進政策及其他國家扶持政策。目前,語音識別技術屬于中國AI領域中最為成熟落地的技術之一,在國家政策的強力扶持下,預計未來能夠加速在垂直行業的滲透和布局。
同時,在“十四五”的大背景和智能經濟形態下,各省市響應中央號召,已有多個省市相繼發布人工智能相關規劃或專項政策,以人工智能為技術手段,發揮當地產業集群優勢,促進產學研融合及協同發展。具體如下:
表1:語音識別相關政策匯總
信息來源:融中研究整理匯總
2.2行業發展現狀
中國AI語音識別市場參與者眾多,主要分為上游、中游、下游。
表2:語音識別產業鏈分析
信息來源:融中研究整理匯總
上游分析:底層技術提供強力支持——語音識別解碼過程中包含了升學模型和語言模型的識別建模和模型訓練兩個部分。在運行過程中訓練數據量和計算量需求極大,傳統的CPU或者單一處理器幾乎無法快速單獨完成一個完整的模型訓練過程,主要原因在于CPU內部僅含有少量的邏輯單元,且指令執行是逐一進行的串行計算,使用該架構進行語音識別運算的處理時間過長,無法滿足海量數據計算的實時性需求。因此,能提供海量數據處理、存儲以及高性能運算能力的云計算技術成為語音識別行業的應用熱點。目前,主流語音識別公司的模擬訓練和語音識別基本都在云端采用GPU(圖形處理器)并行架構或異構計算方案進行。
中游分析:語音技術持續升級——語音是被的中游主要為將語音識別技術實現商業化落地的硬件及軟件服務供應商。根據終端消費者類型,語音識別的中游廠商主要可以分為消費級市場和專業級市場,其中消費級市場中的主要語音識別產品包括消費級智能硬件、智能音箱及語音輸入法等,專業級市場的語音識別產品則主要以行業解決方案和平臺化技術輸出兩種形式呈現,其中更為垂直落地的解決方案形式在目前專業級商業化收入市場中占比更高。目前,智能語音開放平臺在智能語音市場中收入占比較小的原因是,以阿里、百度及科大訊飛為首的各大廠商為加速AI語音技術對下游應用場景的滲透,采用多種優惠甚至免費形式向開發者提供語音識別服務,希望將語音識別技術應用在更多軟件及場景中,與廣大開發者攜手建立一個完整的AI產業生態圈。
下游分析:行業應用多樣化——語音識別作為AI交互的重要入口,在人工智能領域屬于最重要和發展最為成熟的技術之一,目前已經以多種商業化形式廣泛應用于下游市場。從應用領域來看,目前消費級市場主要應用于智能硬件、智能家居、智慧教育、車載系統等領域,專業級市場主要應用于醫療、公檢法、教育、客服、語音審核等領域。廣泛的應用領域也就意味著更多元化的使用場景,然而目前的語音技術對于使用場景具有較強的限制性。盡管快速更新迭代的神經網絡結構已經將安靜環境下的近場語音識別的錯誤率降低至3%以下,但現實環境中多數應用場景無法滿足理想的環境條件,因此在進行語音識別時需要同時考慮到各種噪聲、信道等因素。為使語音識別技術在更廣泛的使用場景下保持良好的表現,AI語音廠商需要提供硬件與軟件協同的一站式服務,并根據用戶實際痛點進行針對性優化,從而有效提升在多元下游場景下語音識別的滲透率。
2.3行業競爭格局
中國AI語音識別主流廠商按照其屬性可分為IT及互聯網廠商、語音技術廠商兩類。
IT及互聯網廠商:IT及互聯網廠商包括百度、阿里巴巴、騰訊、搜狗、小米等廠商。憑借在互聯網時代積累的大量資本,IT及互聯網廠商在眾多科技領域成為了主要參與者。與依靠人工智能技術起家的AI垂直類企業不同,IT及互聯網廠商側重以流量導向和滿足龐大用戶群體驗和創新需求為導向去做AI開發,更多以流量和用戶體驗為導向,同時,會比傳統的語音技術廠商更加注重創新實踐。
語音技術廠商:語音技術廠商也可以分為傳統語音技術廠商和創業廠商、傳統語音技術廠商包括科大訊飛、小i機器人、捷通華聲等擁有自己的核心智能語音芯片以及語音相關軟件系統的廠商,創業廠商包括云知聲、思必馳、出門問問等專注于某些垂直領域(如汽車、家電等)來推廣自己的語音技術和產品的廠商。
綜合來說,在中國AI語音識別領域,阿里巴巴、科大訊飛、百度、騰訊均有著強勁的競爭力。
阿里巴巴:阿里智能語音交互服務是業內領先的云原生語音服務平臺,對阿里集團內服務于超過99%語音場景,對外也提供各類云上語音產品。根據阿里巴巴企業年報來看,阿里巴巴在語音識別領域涉及情況如下:
(1)在語音識別全產業鏈方面,阿里云上語音技術在大量數據積累、算法積累、工程積累和阿里達摩研究院技術同步上云的成果加持下,極大提升了語音交互的準確率和性能。阿里智能語音交互技術已解鎖并成熟布局于多個場景中,包括智能客服、智能質檢、法庭庭審實時記錄、實施演講字幕、訪談錄音轉寫、聲紋登錄、設備端語音交互等場景,在政務、金融、物流、教育、電商、泛互聯網、醫療、餐飲等多個領域均有應用案例以及大量的客戶積累。
(2)在市場方面,目前阿里智能語音分別在電話客服和法院語音識別的市場都占有領先的位置。阿里語音AI技術能在多個領域快速落地,占領市場并成為行業客戶認知度前列的云上語音技術廠商,關鍵因素之一是與大量的獨立軟件開發商結成了阿里語音AI產業聯盟。
(3)在企業經營和戰略方面,阿里云在基建技術的布局規劃方面,將繼續加大投入對云操作系統、服務器、芯片、網絡等核心技術的研發,為語音AI與云的結合帶來更具想象力的引用場景和價值空間。
(4)在創新方面,阿里重視對技術的研發投入和對行業的貢獻,其職能語音核心技術能力是下一代端到端語音識別技術SCAMA、SAN-M技術和DFSMN技術,這幾種技術都是業界首次在非科研領域的應用并獲得成功,使得整體語音交互技術的準確率在高并發的情況下獲得獨特優勢。同時DFSMN也已經面向全行業開源,為行業整體技術提升做貢獻。另外,阿里在業內率先推出的自學習平臺也改變了語音AI生產關系,即使行業實踐者沒有很多語音領域的專業知識,也能夠通過阿里云自學習產品灌入行業內的數據和知識就能夠獲得所在行業不錯的語音交互效果。
(5)在客戶服務方面,阿里智能語音最為主要的商業策略就是為其合作伙伴提供語音原子能力、多個領域開箱即用模型和自學習平臺,賦予了消費端產品“能說、會說、懂你”式的智能人機交互體驗,在將阿里云智能語音領先技術賦能于產業聯盟企業的同時,構建了一個更為完整和繁榮的AI語音應用生態、普惠市場。
科大訊飛:科大訊飛是國內領先的智能語音技術主要提供商之一,在語音識別等智能語音技術領域擁有國際先進的成果,主要業務包含智能語音和語言技術研究、軟件及芯片產品開發、語音信息服務及電子政務系統集成,為企業、政府和個人提供智能應用。科大訊飛技術優勢在同行業中出眾,擁有自主知識產權的只能語音技術,推出覆蓋大型電信級應用到小型嵌入式應用以及滿足不同應用環境的軟硬件產品。科大訊飛在中文語音技術市場和語音合成產品市場都占有較大份額,應用與電信、金融、電力、社保等主流行業。科大訊飛結合自己核心的只能語音技術和人工智能的研究,已經實現AI產品化的布局。在To B端,科大訊飛面向教育、政法、醫療、汽車和客服等多個行業提供相應的解決方案。在To C端,科大訊飛提供面向消費者的家庭、汽車、翻譯等消費級個人,包括硬件產品如訊飛學習機、訊飛翻譯機、智能辦公本等,以及軟件產品如訊飛輸入法、AI電視助手等。
百度:百度在AI開放平臺上提供語音識別的技術,共享AI領域的應用場景和解決方案。提供產品包括短語音識別、實時語音識別、遠場語音識別、音頻文件轉寫、語音自訓練平臺等,應用于手機應用如語音輸入、機器人對話、語音內容分析和實時語音轉寫等場景。百度的語音識別技術優勢在于領先的語音識別技術,提供自助訓練專屬模型,可簡單快速地接入API及多種SDK接口,提供穩定性保障,且收取費用較低。
騰訊:騰訊云語音識別目前主要應用于微信、王者榮耀、騰訊視頻等內部業務使用,外部應用布局于錄音質檢、會議實時轉寫、法庭及審訊記錄、語音輸入法等場景。技術提供主要功能為開放實時語音識別、一句話識別和錄音文件識別,支持云端和嵌入式兩種服務模式。騰訊云語音識別的主要優勢在于有大量的用戶基礎和數據積累可應用于豐富的行業場景,收費價格較低,自準率高達97%,支持多語言識別能力,有領先的算法。
3
行業投資現狀
國內的人工智能產業發展相較于國外廠商發展較晚,2011年中國的人工智能企業方才展露出些許發展趨勢。隨著全球人工智能技術的日益成熟,國家政策支持力度的逐步加大,國內投資環境的不斷優化,中國人工智能產業趁著時代的風口發展迅猛,如今已是百家爭鳴的階段。其中,除了互聯網巨頭企業在早期就提前布局,初創型中小企業亦緊跟腳步積極加入到人工智能產業市場。截止到本報告期,參與到人工智能產業的公司共計3199家,投資事件達4447件,總投資金額15151億人民幣,投融資概覽如下:
表3:2012-2021年2月人工智能產業投融資情況
信息來源:融中研究整理匯總
語音識別作為人工智能產業中極其重要的一個組成部分,擔任著人機交互應用時的輸入和輸出接口,也相應的受到產業風口的影響,受到一眾投資機構的追捧。2017-2021年2月,參與到語音識別行業的投資事件達143件,投資金額達170.77億人民幣。從數據可以看出,語音識別相關公司在2018年獲得的投資額及投資事件數達到一次爆發,分別達到62.3億人民幣、55次投資。隨后在2019年至2020年,投資活動相對平穩。
表4:2017-2021年2月語音識別產業投融資情況
信息來源:融中研究整理匯總
從投資輪次來看,A輪階段的語音識別企業更受資本方的青睞,投資額達50.24億人民幣,投資事件達65次;其次,B、C、D、E輪次的投資相對平均;值得一提的是對于早期項目,投資機構雖然單筆投資金額較少,但投資事件相對較高,達24次。按照語音識別產業分輪次投融資占比來看,行業中吸引了絕大部分資金的企業基本上都聚集在A、B、C輪。
表5:2017-2021年2月語音識別產業分輪次投融資情況
信息來源:融中研究整理匯總
表6:2017-2021年2月語音識別產業分輪次投融資占比情況
信息來源:融中研究整理匯總
從語音識別產業內企業產品/服務應用方向來看,主要分為技術服務(行業解決方案)、教育、汽車交通、新工業、智能硬件、醫療、金融等幾個分類。其中,最為獲得投資機構青睞的是技術服務方向的語音識別企業,占據了投資金額及投資事件數的絕大部分,分別為116.49億人民幣、89次投資。值得一提的是,語音識別技術應用于汽車交通行業所獲得的投資件數雖然僅有4次,但單筆投資金額卻是最高的。
表7:2017-2021年2月語音識別產業分行業投融資情況
信息來源:融中研究整理匯總
表8:2017-2021年2月語音識別產業分行業投融資占比情況
信息來源:融中研究整理匯總
4
行業投資競爭格局
由于語音識別屬于人工智能領域,自然也獲得了不少頭部投資機構的關注。通過整理數據了解到,主要投向語音識別行業的投資機構大體上可分為三類。第一類為專注于投資工智能領域下細分賽道的精品投資機構,如創新工場、聯想之星、線性資本、創勢資本、金沙江創投等。第二類是專業投資機構,如深創投、紅杉資本、經緯中國、高瓴資本等投資面向多個專業領域的綜合型全領域投資機構。第三類為公司本身主要業務內容涵蓋了語音識別技術的行業龍頭企業,如科大訊飛、百度、阿里巴巴、騰訊、奇虎360等。
經過融中研究統計整理,2013-2020年我國AI語音識別領域投資機構的主要投資階段分布情況如下:
表9:AI語音識別細分領域投資機構的主要投資階段分布
聯想之星作為聯想控股的早期投資和孵化板塊,植根聯想30余年來的創業經驗和資源積累,為創業者提供天使投資+深度孵化的特色服務,主要投資于TMT、醫療健康兩大領域,積極布局人工智能、智能機器、互聯網改造傳統產業、生物技術、醫療器械等前沿領域。聯想之星創立于2008年,目前在管資本總額約35億人民幣,歷史投資277家TMT、醫療器械領域優質企業,9家完成退出工作。在語音識別領域,聯想之星共投出11家產業上下游企業,是該投資該領域的排頭兵。
創新工場是一家早期投資機構,同時為創業者提供全方位的創業服務。創新工場的投資方向立足于信息產業最熱門的領域,也包括人工智能領域。主要涉足的投資階段為:種子輪、天使輪和A輪,B輪會有選擇的進行跟投。創新工場共管理6支基金,管理的資產規模達110億元人民幣,歷史投資539家信息產業企業,25家完成退出。在語音識別領域,創新工場領投了追一科技的B輪融資以及跟投C輪;參與ImageDT 圖匠數據的Pre-A輪融資。
科大訊飛是國內領先的智能語音技術主要提供商之一,在語音識別等智能語音技術領域擁有國際先進的成果,主要業務包含智能語音和語言技術研究、軟件及芯片產品開發、語音信息服務及電子政務系統集成,為企業、政府和個人提供智能應用。科大訊飛在中文語音技術市場和語音合成產品市場都占有較大份額,應用與電信、金融、電力、社保等主流行業。科大訊飛結合自己核心的只能語音技術和人工智能的研究,已經實現AI產品化的布局。因此,科大訊飛作為行業內的龍頭企業,同時站在戰略投資的角度大力布局人工智能領域的優質企業,對外投資共計37.91億元,投資事件80次,目前已有5家被投企業完成退出(包括IPO退出)。科大訊飛主要投資了近嶼智能、叮咚音響、奇智企業三個企業,分別所屬輪次為天使輪、A輪、天使輪。
5
行業投資未來發展趨勢
語音識別是指讓機器將人類語言轉化為文字或命令的AI技術。可廣泛應用于文字輸入、社交軟件、車載語音、智能家居等領域。受益于大數據、人工智能等技術不斷進步,我國語音識別行業在識別的準確性與速度等方面不斷提高,下游應用范圍不斷擴大。根據新思界產業研究數據顯示,2018年-2020年,我國語音識別市場規模由62億元增長至350億元,年均復合增長率達到39.59%。
當前國內語音識別市場已經被領先企業所搶占,新進入者發展較為困難。語音識別行業屬于資金與技術密集型行業,大型企業在數據庫搭建、試驗布局等方面實力明顯強于中小型企業。除科大訊飛、搜狗外,百度、阿里、騰訊等互聯網巨頭也紛紛進入布局,此外,思必馳、云知聲、出門問問等創業公司也先后進場,使得行業內企業數量不斷增多。經過快速擴張,國內語音識別市場主要被大型企業所占據,市場格局趨于穩定。我國流向語音識別領域的資本也在逐步向大型企業靠攏,語音識別行業呈現出“強者愈強、弱者愈弱”的發展狀態。其中科大訊飛、搜狗、百度在輸入法領域處于主導地位;社交軟件領域主要由騰訊占據了絕對的市場;云知聲在智能電子、智能家居領域布局較為完善;思必馳在車載語音、智能機器人等領域發展較好;出門問問在智能手表領域發展較快。
投資機構想要在語音識別領域對初創型企業或中小型企業進行投資,尚有一定難度。如果被投企業在技術上沒有突破性進展,難以打破現有市場格局,競爭壓力將日益增大。但現今國內從智能機器人到智能語音助手,隨著技術的提升,應用場景的增多,人工智能行業已經開始展露頭角。同時,眾多機構對其未來發展依然保持著極大的信心。智能語音市場按客戶類型可分為2C或2B2C的消費級市場和2B的專業級市場。消費級市場應用于衣食住行等生活場景,主要包括智能家居、智能可穿戴、智能車載、智能手機等;專業級市場應用于特定場景,如醫療、教育、呼叫中心等。消費級智能語音助手的功能是基于語音交互實現設備控制、日程管理、信息查詢、生活服務、情感陪伴等;專業級市場智能語音的應用主要是醫療領域語音導診、電子病歷轉錄與轉寫、智能輔助診斷,教育領域的智能語音訓練與評測、互動教學等,呼叫中心領域的智能客服。
總的來看,未來隨著技術的不斷突破,語音交互方面還有望得到進一步提升。比如,基于對用戶的持續學習,它知道你喜歡的東西、愛好、興趣,甚至可以通過你的行動、表情、語氣知道你的喜怒哀樂,這樣的話,它會基于你而做出不同的、但是令你感到貼心的反應,且跟你有很多共同話題,而這都是可以基于技術的突破逐漸實現的。而以上這些語音識別的技術開發及應用尚未被完全占領,投資機會依然存在。
猜你喜歡
昆侖萬維25年一季度營收17.6億,大幅增長46%,AI業務商業化實現新突破
4月29日,昆侖萬維(300418.SZ)(以下簡稱“公司”)披露2025年第一季度業績報告