“語音生活助手”哪家強?我們評測告訴你答案
當點外賣、訂酒店、推薦餐廳、訂電影票都不用對著手機屏幕猶豫不決,動動嘴就可以解決所有的事情時,對于有選擇困難癥的人來說,簡直是福音。
當然,前幾年,對著手機、智能音箱等硬件產(chǎn)品語音對話時,語義理解錯誤、對話困難、流暢性差等體驗讓很多人對于語音助手望而卻步。而現(xiàn)在,隨著以NLP語義理解為代表的語音技術(shù)日益發(fā)展,語音助手已經(jīng)逐漸褪掉“智障”的稱號,開始真正走向智能。用語音對話處理生活上的問題,逐漸成為可能,甚至越來越多的人將語音助手看作是一種陪伴。
在小米MIDC開發(fā)者大會中公布了小愛同學的一則數(shù)據(jù),截止今年6月,小愛同學MAU達到7840萬,累計喚醒次數(shù)達617億次。小米集團AIoT戰(zhàn)略委員會主席、IoT平臺部總經(jīng)理范典談到“小愛同學的目標是成為擁有大規(guī)模落地場景的‘智能生活助手’。”此外,華為、OPPO等國內(nèi)大型手機與智能設備廠商也在多個場合表示語音助手將會是實現(xiàn)跨場景互聯(lián)網(wǎng)服務的重要方式。
從最開始的語音對話到現(xiàn)在的生活助手,語音交互不再簡單的作為生活中的點綴而出現(xiàn),更多的以陪伴助手的角色出現(xiàn)在日常生活中。在未來,語音交互在生活服務場景中的使用將是大勢所趨。
生活服務不同于閑聊等服務場景,用戶在使用語音助手點外賣、訂酒店時,是帶有明確任務目的的。如何準確理解用戶意圖并幫助用戶完成點餐、訂票服務,這就要求語音助手必須要在生活服務領(lǐng)域擁有較高的意圖理解能力和具備面向任務型(Task-Oriented)的連續(xù)對話能力。基于以上前提,獵云網(wǎng)找到了四款在生活服務場景中的“語音助手”較為突出的三款硬件產(chǎn)品和一款軟件應用,做了一次深度評測。
三款硬件產(chǎn)品包括蘋果手機、華為手機、小度音箱,另外一款軟件產(chǎn)品為曉悟APP。鑒于每一款產(chǎn)品在生活服務場景中所處優(yōu)勢不同,且有些產(chǎn)品未開通相關(guān)功能。因此,獵云網(wǎng)對四款產(chǎn)品逐一進行了體驗,并對四款產(chǎn)品的自然語言理解能力(NLU)、對話管理能力(DM)、自然語言生成能力(NLG)進行了深度體驗,最終選取每個產(chǎn)品服務可用性最佳的場景進行橫向語義理解率測試。
蘋果手機Siri:視覺交互依賴過高,不能體現(xiàn)語音交互特性
在四款產(chǎn)品中,獵云網(wǎng)首先對蘋果手機Siri進行了測評,服務場景選擇了餐廳查詢場景。
“嘿,Siri,附近有什么好吃的呀?”
“好的,希望這些信息對你有幫助。”
手機會以蘋果地圖為搜索基礎,屏幕會彈出附近四、五家餐廳,并顯示出距離。但和其他三款測試產(chǎn)品相比,Siri的多輪對話體驗感不好,每一次進行二次提問時,需按下Siri接口,在進行提問。如果再次用Siri語音喚醒,則默認重新進入新一輪對話,連貫性不好。
在餐廳選擇上,Siri可以直接下達距離、評分等要素排序的命令,但當獵云網(wǎng)對著Siri發(fā)問“這個評分高么?”“還有別的選擇么?”“有沒有近一點的餐廳?”等問題時,Siri則無答應,也不會以“這個問題我沒聽清楚,請再說一遍。”這樣的安慰型話術(shù)收尾,語音對話結(jié)束的相對生硬,甚至會自動彈出以整句話為搜索關(guān)鍵詞進行搜索的界面。
“有沒有推薦的川菜”“我想擼串兒,有推薦的么?”在類似餐廳類別的問題識別上,Siri還是可以準確定位出來并推薦給用戶。
“Siri,有沒有評分高的呷哺呷哺店。”
“好的,請過目”
“這些店哪個評分最高”
“我找到的評價最好的是北京市方莊芳古園一區(qū)18號樓4層的呷哺呷哺(方莊新城廣場店),評價為4.5星。”
諸如此類的對話下來,可以明顯的發(fā)現(xiàn),Siri不會直接用語音說出除了餐廳名稱之外更多的詳細信息,需要用戶在視線不離開手機屏幕的前提下,和它完成對話。這一點相對于其他三款產(chǎn)品來說,語音交互的特性不能完全體現(xiàn)出來。
此外,Siri利用蘋果地圖作為信息檢索的入口,在餐廳的評分和評價上,和其他三款產(chǎn)品有所差別,沒有結(jié)合中國用戶特色進行本土化的定制化升級,體驗相對較差。
華為智慧助手:成熟的電影票語音預訂功能
獵云網(wǎng)對于華為手機智慧語音助手“小藝”的測評,同樣選擇了小藝語音助手中用戶體驗度較好的電影票預訂作為測試場景。據(jù)悉,該語音訂電影票服務是由第三方智能語義理解與多輪對話服務提供商“玩秘”提供。
直接用語音對華為小藝說“電影票助手”喚醒服務。“你好,歡迎回來,你可以說,我想看赤狐書生。”小藝會用一句話開啟和用戶的溝通,這一點相對于其他產(chǎn)品來說,可以完美解決聊天開場的尷尬,直接帶用戶進入聊天模式。
在界面設計上,以白色為基底,下方分別排列著鍵盤接口按鍵、語音接口按鍵以及相機接口按鍵,簡單大方。和曉悟相同的是,小藝也保留著對話框以供用戶翻看記錄。
“最近有什么好看的電影推薦?”
“最近《除暴》不錯,要去看嗎?”
“評分怎么樣?”
“有8.5分”
“了解,那就去看除暴啦,你一般常去哪家電影院呀?”
“在公司附近看吧。”
和小藝對話,最明顯的特點是,它在回復的同時,還會拋出問句追問。不僅是簡單的對話,直接用商量的語氣在回應用戶,沉浸感十足。
除了評分之外,問到“金剛川的評價怎么樣?”類似于評價的問題,小藝電影票助手會回答到“聽說金剛川鏡頭處理的高明,情緒有起有伏。要看這個么?”
對于評價性的問題,小藝的電影票助手是獵云網(wǎng)在這四款語音交互產(chǎn)品中體驗和可用性最佳的一款。
此外,在涉及到用戶地址隱私時,電影票助手會主動詢問用戶是否可以保存,獲得授權(quán)后才會保存地址信息,大大提升了用戶隱私的安全性。當用戶授權(quán)保存地址后,再次使用電影票助手購票時,小藝會直接問到,“今天想在家附近還是在公司附近看電影?”、“今天周六,要在家附近看電影么?”這類的問題,更顯人性化。甚至于直接告訴小藝“去我經(jīng)常去的電影院看電影”,小藝電影票助手都可以直接識別出來。
目前,電影類型、場次、票房、評分、評價等基本要素,小藝已經(jīng)涵蓋到,并可以清晰的通過多輪對話顯現(xiàn)出來。
在電影票預訂生活服務場景上,相比于其他三款產(chǎn)品的體驗而言,小藝電影票助手(玩秘)的用戶體驗已經(jīng)相對較好,各種對話場景已經(jīng)覆蓋,多輪對話邏輯清晰,出現(xiàn)回答不上來或者邏輯混亂的次數(shù)相對較少。
曉悟APP:應對需求簡單的酒店預訂
第三款測評產(chǎn)品獵云網(wǎng)選取了曉悟APP的酒店預訂作為測試場景。
打開曉悟APP,從界面設計上來看,黑色作為底色存在,用戶對話框以白色為主,曉悟?qū)υ捒騽t以黃色為主,色調(diào)相對暗沉,但也簡單明了。
在簡單了解后,獵云網(wǎng)開始了第一輪對話。直接發(fā)問“我想要訂個酒店”、“我要去上海出差,有什么酒店可以推薦”等類似涉及到“訂酒店”的關(guān)鍵詞句后,曉悟都會回復“你想什么時候入住?住幾天?”
“明天入住,下周一離開。”“推薦酒店為上海鳶尾花公寓(中路分店),1間舒適一室一廳套房,房間總價格為285.00元/一天,從2020年12月10日入住,2020年12月14日離開,地址位于上海市黃浦區(qū)上海黃浦區(qū)黃浦西藏中路200號大(中華小區(qū)來福士廣場對面)要訂這家酒店嗎?”
如果用戶再具體說到一個區(qū)域內(nèi),曉悟會再搜索后推薦區(qū)域內(nèi)一家酒店。在最初的一輪對話中,曉悟基本上沒有什么問題。但在對曉悟進行詢問,“這個是評分最高的嗎?”“這個酒店是幾星級?”“這個酒店有浴缸么?”“這個酒店有停車場嗎?”等再一輪對話時,曉悟則回答為“曉悟還在幫您訂酒店呢,要么您換個說法試試。”類似的話術(shù),進一步深入了解酒店詳情則稍顯困難。
獵云網(wǎng)以“幫我換一個更高級(價格更高)一點的”的問題開啟第二輪對話,曉悟則可以反應并選擇價格高一點的再次詢問。
但在酒店的分類上,曉悟?qū)η嗄曷蒙帷⒚袼薜染频觐愋蜁簾o分類功能;在房間分類上,曉悟已經(jīng)可以識別大床房、雙床房等說法,但喚醒效果卻差強人意,在幾輪對話后,再次詢問時就會出現(xiàn)語義理解不清等問題。
總體來說,曉悟在服務簡單指令時有較為不錯的表現(xiàn),但如果涉及到更多類似于酒店類型、酒店服務、房間選擇上,曉悟的體驗感就會直線降低。
小度音箱:生活服務場景停留在簡單對話上
最后,獵云網(wǎng)在小度音箱上體驗了餐廳推薦場景。
當獵云網(wǎng)在小度上詢問到“小度小度,附近有什么好吃的餐廳推薦。”小度則會回答 “找到了好幾個好吃的餐廳,為您推薦漢田肅肅免面館”。而屏幕下方則會出現(xiàn)引導詞“小度小度,第一個。”“小度小度,去這里。”
當獵云網(wǎng)再一次喚醒小度推薦餐廳時,就直接彈到了搜索界面。在生活服務場景下,小度音箱語義理解體驗感十分差。
當詢問到餐廳類別“小度小度,有沒有川菜館推薦?”小度音箱屏幕上則會直接播放出教你做川菜的視頻。
在評分、類別、評價等關(guān)鍵要素上,小度的體驗效果并不好。
結(jié)語:語音交互,各有所長,但生活服務場景是大勢所趨
獵云網(wǎng)對這四款產(chǎn)品各選取了200句生活場景測試語料,測試結(jié)果顯示,華為手機“小藝”在預訂電影票場景下理解率達89%,曉悟在預訂酒店場景下理解率為31%,而蘋果Siri由于在生活場景上所開通的功能有限,因此,基于蘋果地圖信息上的餐廳預訂功能理解率為24%,小度同樣如此,在餐廳推薦場景的表現(xiàn)更為差強人意,理解率不足10%。
盡管獵云網(wǎng)對不同產(chǎn)品選擇其相對成熟的場景進行測試,但從以上數(shù)據(jù)中可以很清晰的看出,華為手機在訂電影票場景的多輪對話語義理解力最為成熟,而曉悟APP在訂酒店場景下多輪對話語義理解力有待加強,而Siri和小度在生活服務場景的可用性較差。
值得注意的是,Siri和小度盡管在生活服務場景上體驗不好,但是小度音箱的優(yōu)勢在于教育場景,甚至與以“兒童陪伴”為標簽而存在,童聲對話中講故事板塊、日常語音溝通等板塊相對成熟。
語音交互作為一種人機交互方式的重要補充,由于其輸入與查詢效率高、“可以想怎么說就怎么說”等特點,加入了語音交互的人機交互服務體驗顯著優(yōu)于單一的觸控交互方式。越來越多的廠商開始意識到這一點,尤其是以華為為代表的國內(nèi)主流手機廠商及智能終端廠商,紛紛開始提前布局語音交互,并將打造智能語音助手列為未來幾年的核心戰(zhàn)略之一。
當各大廠商都在通過自己的力量推動的語音交互發(fā)展時,作為語音交互中的藍海市場——生活服務場景,也將是各大廠商搶灘布局的領(lǐng)域。只有在技術(shù)不斷成熟穩(wěn)定之后,用戶對話體驗感上升,語音交互才會逐漸成為“生活助手”,常伴用戶身邊,解決生活中的方方面面的問題。