技術(shù)發(fā)展的關(guān)鍵在于落地,語(yǔ)音”作為目前人工智能領(lǐng)域落地最為成熟的技術(shù),以準(zhǔn)確率可達(dá)95%以上的識(shí)別水平,已經(jīng)逐漸步入商業(yè)化階段。而語(yǔ)音交互的實(shí)現(xiàn)主要取決于兩點(diǎn):語(yǔ)音識(shí)別及語(yǔ)義理解。
智能語(yǔ)音在呼叫領(lǐng)域應(yīng)用廣泛 但在+”之后更精彩
目前中國(guó)智能語(yǔ)音市場(chǎng)被科大訊飛、百度和蘋(píng)果占據(jù)絕大多數(shù)市場(chǎng)份額,2015年三家合計(jì)達(dá)79%。其中,科大訊飛市場(chǎng)份額為44.2%,處于市場(chǎng)領(lǐng)先地位。百度進(jìn)入勢(shì)頭強(qiáng)勁,市場(chǎng)份額增長(zhǎng)快速。
一、智能語(yǔ)音:談入口太早,但不可或缺
智能音箱是臺(tái)面上的狂歡,本質(zhì)還在用戶、數(shù)據(jù)和服務(wù)
自2014年11月Amazon推出收款基于語(yǔ)音交互的智能音箱Echo以來(lái),2015年科大訊飛發(fā)布智能音箱叮咚,2016年谷歌發(fā)布智能音箱GoogleHome。
而進(jìn)入2017年以后更是密集,5月聯(lián)想發(fā)布智能音箱,Amazon發(fā)布帶觸屏的EchoShow,微軟聯(lián)手音頻設(shè)備制造商哈曼.卡頓合作打造Invoke,6月蘋(píng)果發(fā)布HomePod。同時(shí)國(guó)內(nèi)BAT等互聯(lián)網(wǎng)巨頭也紛紛有意入局。
智能音箱本身不是目的,爭(zhēng)奪的是背后的用戶、數(shù)據(jù)以及服務(wù)入口。其實(shí)基于語(yǔ)音交互技術(shù)的入口產(chǎn)品可以是音箱、電視等家居產(chǎn)品,甚至可以是室內(nèi)可及的智能設(shè)備,之所以選擇音箱作為突破口,只不過(guò)看重這樣一款在初期能承擔(dān)除交互之外其他功能的載體。
對(duì)于用戶而言,需要的是能夠?qū)⒈姸喾彪s的應(yīng)用和接口進(jìn)行封裝的工具,不再需要自己主動(dòng)到每一個(gè)具體應(yīng)用上獲取服務(wù),而是借助語(yǔ)音交互統(tǒng)一的入口提供。對(duì)于巨頭公司而言,目的在于借此獲得移動(dòng)互聯(lián)網(wǎng)之后一個(gè)能夠獲取用戶數(shù)據(jù)并持續(xù)提供服務(wù)的入口。
單就智能音箱而言,交互體驗(yàn)和連接的服務(wù)是影響用戶選擇的重要因素。拋開(kāi)智能音箱的設(shè)定,其本質(zhì)是一款基于語(yǔ)音進(jìn)行人機(jī)交互的智能硬件,在算法層面涉及到降噪、遠(yuǎn)場(chǎng)識(shí)別、喚醒與打斷以及多輪會(huì)話、語(yǔ)義分析等自然語(yǔ)言理解技術(shù),硬件層面主要涉及到進(jìn)行聲音采集的麥克風(fēng)陣列技術(shù)以及聲音播放時(shí)揚(yáng)聲器處理。軟硬件的協(xié)同配合方能使得人機(jī)交互更為自然。
如果說(shuō)播放音樂(lè)是傳統(tǒng)音箱的主要功能,那么對(duì)于智能音箱而言,這已經(jīng)幾乎成為附帶選項(xiàng),互相之間拼的不是、或者說(shuō)不只是音質(zhì)問(wèn)題,更多是人機(jī)交互的體驗(yàn),以及交互背后所能支撐和兼容的服務(wù)數(shù)量與質(zhì)量。無(wú)論是對(duì)接線上的互聯(lián)網(wǎng)服務(wù),還是線下智能家居系列產(chǎn)品,若無(wú)法形成產(chǎn)品、應(yīng)用以及數(shù)據(jù)的生態(tài)閉環(huán),則智能音箱的入口目標(biāo)就難以達(dá)成。
國(guó)內(nèi)智能音箱的慘淡銷量還與消費(fèi)習(xí)慣相關(guān),用戶培育需要時(shí)間。與AmazonEcho千萬(wàn)量級(jí)銷量相比,國(guó)內(nèi)科大訊飛與京東聯(lián)合發(fā)布的叮咚音箱銷量似乎遜色不止一籌。除了在技術(shù)和應(yīng)用層面可能存在的差異之外,各自根植的土壤環(huán)境也有著先天的差異。
若去掉智能”的概念,智能音箱首先是個(gè)音箱,與歐美超過(guò)85%的家庭音箱普及率相比,國(guó)內(nèi)甚至不足20%,在對(duì)音樂(lè)以及音箱設(shè)備的需求觀念上的差異導(dǎo)致音箱對(duì)歐美人群或許是生活剛需”,而對(duì)國(guó)內(nèi)用戶或許目前還只是少部分人的愛(ài)好。正如前文所述,音箱只是恰好成為載體之一,最核心的依然是物聯(lián)網(wǎng)時(shí)代智能終端的人機(jī)交互入口。
信息獲取與表達(dá)決定語(yǔ)音交互成為階段性不可或缺的一環(huán)
互聯(lián)網(wǎng)PC時(shí)代人機(jī)交互主要依賴鼠標(biāo)和鍵盤(pán),移動(dòng)互聯(lián)網(wǎng)時(shí)代觸摸屏交互成為標(biāo)配,那么人工智能時(shí)代的交互會(huì)由哪種方式主宰?基于語(yǔ)音控制的智能音箱還是智能電視?
這些或許有可能成為智能家居入口,但即便AmazonEcho已然達(dá)到千萬(wàn)級(jí)銷量及超過(guò)1萬(wàn)項(xiàng)技能點(diǎn),似乎也不足以成為人工智能時(shí)代交互入口的產(chǎn)品擔(dān)當(dāng)。
從信息獲取以及表達(dá)的角度來(lái)看,交互入口的演變必然是從習(xí)慣到本能的革命。從信息獲取來(lái)看,研究表明,人的各種感覺(jué)器官?gòu)耐饨绔@取信息來(lái)源=視覺(jué)60%+聽(tīng)覺(jué)20%+觸覺(jué)15%+味覺(jué)3%+嗅覺(jué)2%。
其中視覺(jué)、聽(tīng)覺(jué)及觸覺(jué)累計(jì)高達(dá)95%,基于此或許就不難理解為何無(wú)論是互聯(lián)網(wǎng)時(shí)代的PC還是移動(dòng)互聯(lián)網(wǎng)時(shí)代的智能機(jī),不僅無(wú)法離開(kāi)鍵鼠套裝和觸摸傳感器,而且還無(wú)法離開(kāi)那塊或大或小的顯示屏。
從信息表達(dá)來(lái)看,1967年美國(guó)著名心理學(xué)家、傳播學(xué)家艾伯特梅拉比安等人經(jīng)過(guò)大量實(shí)驗(yàn),提出人類在溝通中全部的表達(dá)信息=肢體語(yǔ)言信息55%+聲音信息38%+語(yǔ)言信息7%,或許這也能在一定程度上解釋為何各家智能音箱先后登場(chǎng)卻依然未能挑起入口大梁。
我們認(rèn)為,從鍵鼠輸入的抽象符號(hào)到觸摸屏直接的滑動(dòng)與按壓,這已經(jīng)在一定程度上靠近了人類習(xí)慣,而未來(lái)的交互方式將更為接近人的本能。
語(yǔ)音或許是人機(jī)交互的階段性成果,基于語(yǔ)音的人機(jī)交互或許會(huì)成為某個(gè)特定場(chǎng)景的入口,但語(yǔ)音與肢體動(dòng)作的融合或許更可能擔(dān)當(dāng)?shù)闷鹨粋€(gè)時(shí)代的交互入口,至于更為遙遠(yuǎn)的未來(lái),或許會(huì)有類似腦電波等其他方式。
二、智能語(yǔ)音相關(guān)技術(shù)及發(fā)展歷史
智能語(yǔ)音主要研究人機(jī)之間語(yǔ)音信息的處理和反饋問(wèn)題,從表現(xiàn)形式來(lái)看,即研究如何通過(guò)語(yǔ)音實(shí)現(xiàn)人機(jī)交互,相關(guān)支撐技術(shù)主要可劃分為基礎(chǔ)語(yǔ)音技術(shù)、智能化技術(shù)以及大數(shù)據(jù)技術(shù)。
語(yǔ)音識(shí)別準(zhǔn)確率在引入深度學(xué)習(xí)之后得到快速提升。語(yǔ)音目標(biāo)在于使機(jī)器最終能夠?qū)⒆R(shí)別語(yǔ)音中的內(nèi)容、說(shuō)話人、語(yǔ)種等信息。在技術(shù)思路經(jīng)歷了基于標(biāo)準(zhǔn)模板匹配和基于統(tǒng)計(jì)模型(HMM)兩個(gè)階段;
2010年開(kāi)始由微軟的俞棟、鄧力等與Hinton合作,在語(yǔ)音識(shí)別領(lǐng)域引入深度學(xué)習(xí)替換傳統(tǒng)的特征提取,隨著深度學(xué)習(xí)的引入以及在此基礎(chǔ)上派生的各類模型的組合,語(yǔ)音識(shí)別準(zhǔn)確率大幅提升。
2017年3月IBM通過(guò)長(zhǎng)短時(shí)記憶、WaveNet語(yǔ)言模型和三個(gè)強(qiáng)聲學(xué)模型的組合,在Switchboard數(shù)據(jù)集上電話語(yǔ)音識(shí)別錯(cuò)誤率降低到5.5%,無(wú)論是對(duì)比微軟2016年測(cè)試結(jié)果給出的人類速記員5.9%錯(cuò)誤率還是此次IBM給出的人類5.1%,機(jī)器都已經(jīng)極為接近人類水平。
語(yǔ)音合成已有200多年悠久歷史,表現(xiàn)力尚有待繼續(xù)提升。在計(jì)算機(jī)技術(shù)出現(xiàn)之前主要模仿人體發(fā)聲原理制作相應(yīng)硬件,計(jì)算機(jī)技術(shù)出現(xiàn)后音質(zhì)、音色和自然度都有提升。隨著技術(shù)演進(jìn),語(yǔ)音合成的復(fù)雜度、自然度和音質(zhì)都已取得不錯(cuò)的成績(jī),目前研究重點(diǎn)在于提高合成音的表現(xiàn)力,如語(yǔ)氣和情感等。
聲紋識(shí)別目前也正向著深度學(xué)習(xí)方向發(fā)展,但不管是用傳統(tǒng)算法還是深度學(xué)習(xí),都需要事先建立聲紋庫(kù)。
聲紋識(shí)別主要根據(jù)語(yǔ)音波形反饋的說(shuō)話人生理和行為特征,自動(dòng)識(shí)別說(shuō)話人身份,在安全性上可與指紋、掌形和虹膜等生物識(shí)別技術(shù)相媲美,目前已經(jīng)用于公安和司法系統(tǒng)證據(jù)鑒定中的身份鑒別,以及銀行支付過(guò)程的身份認(rèn)證。
聲紋識(shí)別和語(yǔ)音識(shí)別結(jié)合,能通過(guò)識(shí)別內(nèi)容防止錄音假冒,和情緒識(shí)別結(jié)合,則可以感知識(shí)別對(duì)象是否處于受脅迫狀態(tài)。聲紋識(shí)別需要相應(yīng)的聲紋庫(kù),且至少要保證合理的性別、年齡段、地域、口音、職業(yè)分布。
測(cè)試樣本應(yīng)該涵蓋文本內(nèi)容是否相關(guān)、采集設(shè)備、傳輸信道、環(huán)境噪音、錄音回放、聲音模仿、時(shí)間跨度、采樣時(shí)長(zhǎng)、健康狀況和情感因素等主要影響因素,因而聲紋數(shù)據(jù)庫(kù)成為聲紋識(shí)別技術(shù)突破的重要門(mén)檻。目前最全的是公安部的聲紋鑒別庫(kù)。
自然語(yǔ)言理解目前尚處于淺層語(yǔ)義分析階段,大致包含詞法分析、句法分析、語(yǔ)義分析這三個(gè)既遞進(jìn)又相互包含的層面。
目前機(jī)器對(duì)句子的理解還只能做到語(yǔ)義角色標(biāo)注層面,即標(biāo)出句中的句子成分和主被動(dòng)關(guān)系等,屬于淺層語(yǔ)義分析技術(shù)。未來(lái)要讓機(jī)器更好地理解人類語(yǔ)言,并實(shí)現(xiàn)自然交互,還有待深度學(xué)習(xí)等機(jī)器學(xué)習(xí)方法的進(jìn)步。
多輪對(duì)話,主要建立在語(yǔ)音識(shí)別、合成以及自然語(yǔ)言理解等技術(shù)基礎(chǔ)之上,自然度和準(zhǔn)確度有待提高。
多輪對(duì)話系統(tǒng)一般分為任務(wù)型和閑聊型,任務(wù)型是協(xié)助用戶完成具體的某項(xiàng)事情,如:設(shè)置鬧鐘、查天氣等;而閑聊型是實(shí)現(xiàn)人機(jī)的情感聊天互動(dòng),如陪護(hù)型機(jī)器人。多輪對(duì)話相比單輪對(duì)話方式提高了用戶交互的自然度和準(zhǔn)確度。
對(duì)話管理是實(shí)現(xiàn)多輪對(duì)話系統(tǒng)的核心,功能分為對(duì)話狀態(tài)追蹤(DST)和對(duì)話決策(DialogPolicy),前者作用是更新對(duì)話狀態(tài),記錄到目前為止用戶所有的聊天記錄和系統(tǒng)行為,后者依據(jù)DST對(duì)話狀態(tài)產(chǎn)生系統(tǒng)行為,即決定下一步反饋或調(diào)用等行為。
三、智能語(yǔ)音產(chǎn)業(yè)發(fā)展現(xiàn)狀
市場(chǎng)規(guī)模快速擴(kuò)大,且國(guó)內(nèi)增速顯著超過(guò)全球
在移動(dòng)互聯(lián)網(wǎng)、大數(shù)據(jù)、云計(jì)算、深度學(xué)習(xí)等技術(shù)的發(fā)展推動(dòng)下,智能語(yǔ)音技術(shù)漸趨成熟,行業(yè)發(fā)展進(jìn)入場(chǎng)景應(yīng)用布局階段。移動(dòng)互聯(lián)網(wǎng)、智能家居、汽車、醫(yī)療、教育等領(lǐng)域的應(yīng)用帶動(dòng)智能語(yǔ)音產(chǎn)業(yè)規(guī)模持續(xù)快速增長(zhǎng)。
2015年全球智能語(yǔ)音市場(chǎng)規(guī)模達(dá)62.1億美元,同比增長(zhǎng)34.2%。中國(guó)智能語(yǔ)音產(chǎn)業(yè)市場(chǎng)規(guī)模也逐步擴(kuò)大,2015年40.3億元產(chǎn)業(yè)規(guī)模約占全球市場(chǎng)份額10%,且增速顯著高于全球市場(chǎng),預(yù)計(jì)至2017年份額占比將提升到14%。
各要素齊發(fā)力,推動(dòng)智能語(yǔ)音形成完整產(chǎn)業(yè)鏈
借用我們前序報(bào)告中提出的人工智能商業(yè)化應(yīng)用人機(jī)料法環(huán)”模型,智能語(yǔ)音產(chǎn)業(yè)在人才儲(chǔ)備、計(jì)算設(shè)施、數(shù)據(jù)積累、技術(shù)算法以及應(yīng)用場(chǎng)景等五要素共同推動(dòng)下已形成較為完整的產(chǎn)業(yè)鏈。
從產(chǎn)業(yè)鏈角度,智能語(yǔ)音行業(yè)可分為四個(gè)部分。基礎(chǔ)研究機(jī)構(gòu):語(yǔ)音合成、語(yǔ)音識(shí)別、聲紋識(shí)別等基礎(chǔ)技術(shù)的研發(fā)和技術(shù)輸出;語(yǔ)音語(yǔ)義數(shù)據(jù)提供商:為算法研究或技術(shù)輸出機(jī)構(gòu)提供語(yǔ)音、語(yǔ)義數(shù)據(jù)庫(kù)以及定制化的數(shù)據(jù)采集和處理;
語(yǔ)音技術(shù)提供商:將基礎(chǔ)技術(shù)轉(zhuǎn)換為軟件或行業(yè)整體解決方案,提供嵌入式或平臺(tái)式的語(yǔ)音軟件服務(wù)、行業(yè)智能語(yǔ)音系統(tǒng)整體解決方案;
智能語(yǔ)音應(yīng)用提供商:智能移動(dòng)設(shè)備、智能車載系統(tǒng)、智能家居等智能終端廠商,以及輸入法、娛樂(lè)等各類APP或軟件客戶端等,從產(chǎn)品屬性來(lái)看主要包括消費(fèi)級(jí)產(chǎn)品和專業(yè)級(jí)行業(yè)應(yīng)用。
算法紅利逐漸消失,一家獨(dú)大轉(zhuǎn)向多方競(jìng)爭(zhēng)
隨著深度學(xué)習(xí)的引入和發(fā)展,智能語(yǔ)音的算法紅利正逐漸消失。Nuance自2005年與ScanSoft合并后,成為全球最大的語(yǔ)音技術(shù)廠商,憑借自身先進(jìn)的語(yǔ)音識(shí)別、自然語(yǔ)言理解技術(shù)以及優(yōu)秀的語(yǔ)音解決方案在2012年全球語(yǔ)音市場(chǎng)中占據(jù)62%,加上谷歌、微軟合計(jì)占據(jù)超過(guò)85%。
2010年深度學(xué)習(xí)首次引入語(yǔ)音識(shí)別,隨后配合計(jì)算能力的提升和海量語(yǔ)音語(yǔ)料數(shù)據(jù)的積累,識(shí)別準(zhǔn)確率得到大幅提升。盡管2015年Nuance全球市場(chǎng)份額仍居第一,但已大幅下降至31.6%,而谷歌、蘋(píng)果、微軟及科大訊飛市場(chǎng)份額增長(zhǎng)較快,分別達(dá)到28.4%、15.4%、8.1%和4.5%。
科技巨頭對(duì)于深度學(xué)習(xí)算法及機(jī)器學(xué)習(xí)框架的開(kāi)源使得智能語(yǔ)音技術(shù)的調(diào)用變得更為簡(jiǎn)單,模塊化的設(shè)計(jì)使得應(yīng)用部署與實(shí)施門(mén)檻顯著降低。
目前中國(guó)智能語(yǔ)音市場(chǎng)被科大訊飛、百度和蘋(píng)果占據(jù)絕大多數(shù)市場(chǎng)份額,2015年三家合計(jì)達(dá)79%。其中,科大訊飛市場(chǎng)份額為44.2%,處于市場(chǎng)領(lǐng)先地位。百度進(jìn)入勢(shì)頭強(qiáng)勁,市場(chǎng)份額增長(zhǎng)快速。
美國(guó)權(quán)威雜志《麻省理工科技評(píng)論》公布的2016年十大突破技術(shù),百度硅谷的DeepSpeech2智能語(yǔ)音技術(shù)赫然在列。谷歌、微軟、蘋(píng)果、百度等互聯(lián)網(wǎng)巨頭在資金、數(shù)據(jù)和2C應(yīng)用用戶拓展三方面優(yōu)勢(shì)明顯,各方強(qiáng)勢(shì)介入將使得全球智能語(yǔ)音行業(yè)由一家獨(dú)大演變成多方參與競(jìng)爭(zhēng)的格局。
技術(shù)驅(qū)動(dòng),場(chǎng)景應(yīng)用并借助數(shù)據(jù)形成正反饋,三者成為智能語(yǔ)音行業(yè)的主要壁壘。技術(shù)算法壁壘:隨著智能語(yǔ)音技術(shù)的發(fā)展,語(yǔ)音識(shí)別技術(shù)日益成熟,開(kāi)源語(yǔ)音識(shí)別工具降低了語(yǔ)音識(shí)別的門(mén)檻,但使用過(guò)程的穩(wěn)定性仍有待解決。
語(yǔ)音識(shí)別技術(shù)進(jìn)入突破量變到質(zhì)變的臨界點(diǎn),相關(guān)技術(shù)和配套設(shè)施的研發(fā)能夠?yàn)槠髽I(yè)筑起護(hù)城河,百度、搜狗、科大訊飛等公司安靜狀態(tài)下語(yǔ)音識(shí)別準(zhǔn)確率大都達(dá)到97%,目前均在向更高準(zhǔn)確率以及非標(biāo)準(zhǔn)環(huán)境下的應(yīng)用發(fā)展。
應(yīng)用場(chǎng)景壁壘:2B應(yīng)用涉及金融、電信、醫(yī)療、交通等行業(yè),這些行業(yè)對(duì)系統(tǒng)的穩(wěn)定性要求非常高,非常重視實(shí)際應(yīng)用案例情況,會(huì)通過(guò)嚴(yán)格的招投標(biāo)選擇最具實(shí)力和經(jīng)驗(yàn)的智能語(yǔ)音技術(shù)和服務(wù)供應(yīng)商,一旦通過(guò)評(píng)測(cè)會(huì)保持穩(wěn)定合作,新企業(yè)進(jìn)入壁壘較高;2C應(yīng)用層面互聯(lián)網(wǎng)巨大具有商業(yè)應(yīng)用和信息入口優(yōu)勢(shì)。
數(shù)據(jù)積累壁壘:智能語(yǔ)音在各場(chǎng)景應(yīng)用用戶體驗(yàn)和客戶粘度提升的關(guān)鍵是積累真實(shí)環(huán)境下的各種語(yǔ)音資料和文本資料進(jìn)行迭代優(yōu)化,智能語(yǔ)音應(yīng)用后形成數(shù)據(jù)閉環(huán)將不斷提升壁壘優(yōu)勢(shì)。
目前智能語(yǔ)音產(chǎn)業(yè)的參與者可以分為三大類型:從科研實(shí)驗(yàn)室走出來(lái)的獨(dú)立語(yǔ)音技術(shù)研發(fā)和服務(wù)提供商,如源于斯坦福研究院STAR實(shí)驗(yàn)室的Nuance、與中國(guó)科學(xué)技術(shù)大學(xué)合作的科大訊飛,圍繞智能語(yǔ)音技術(shù)研發(fā)到應(yīng)用各環(huán)節(jié)的初創(chuàng)企業(yè)。
如思必馳、云知聲、出門(mén)問(wèn)問(wèn)、聲智科技、三角獸、驀然等創(chuàng)業(yè)公司,希望搶占下一代人機(jī)交互入口的科技巨頭,如蘋(píng)果、谷歌、微軟、亞馬遜、百度、騰訊、搜狗等。
2010年開(kāi)始,互聯(lián)網(wǎng)巨頭紛紛通過(guò)自主研發(fā)或者并購(gòu)/參股的方式深入布局智能語(yǔ)音產(chǎn)業(yè)參股的方式深入布局智能語(yǔ)音產(chǎn)業(yè)。在智能語(yǔ)音上的布局重點(diǎn)圍繞虛擬助手,并且為占據(jù)一定的市場(chǎng)先機(jī),紛紛開(kāi)始布局智能車載、智能家具、智能醫(yī)療、可穿戴設(shè)備等細(xì)分市場(chǎng)。
融合場(chǎng)景、借力硬件提升語(yǔ)音技術(shù)實(shí)用和穩(wěn)定性
由于語(yǔ)音信號(hào)的多樣性和復(fù)雜性,在真實(shí)使用場(chǎng)景中,考慮到空間距離、背景噪音、其他人聲干擾、回聲、方言、口音等問(wèn)題,準(zhǔn)確率會(huì)大打折扣。提高現(xiàn)實(shí)場(chǎng)景中的用戶體驗(yàn)是智能語(yǔ)音技術(shù)完成質(zhì)的突破的關(guān)鍵,涉及技術(shù)包括遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別、喚醒目標(biāo)檢測(cè)、全雙工交互、個(gè)性化識(shí)別技術(shù)等。
2016年10月intel與科大訊飛宣布合作共同研發(fā)AI芯片,將麥克風(fēng)陣列、遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別等功能集成到SOC當(dāng)中,形成完整的遠(yuǎn)場(chǎng)語(yǔ)音交互鏈條。
目前近場(chǎng)、發(fā)音標(biāo)準(zhǔn)的語(yǔ)音識(shí)別已經(jīng)相當(dāng)成熟,手機(jī)端Siri即可視為這一類型,國(guó)內(nèi)科大訊飛、百度、搜狗等在近場(chǎng)、安靜環(huán)境下的語(yǔ)音識(shí)別準(zhǔn)確率都已提升到97%以上。
但對(duì)于遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別而言,雖然從技術(shù)原理上來(lái)看與近場(chǎng)幾乎相同,但由于音源和麥克風(fēng)之間的空間距離增大,聲音傳播過(guò)程會(huì)受到其他人聲、回聲等影響,在具體使用場(chǎng)景下準(zhǔn)確率依然對(duì)軟硬件都提高了技術(shù)要求。
四、智能語(yǔ)音的應(yīng)用前景
巨頭搶灘虛擬語(yǔ)音助手,并逐漸切入場(chǎng)景應(yīng)用
語(yǔ)音交互的特點(diǎn)是簡(jiǎn)單、快速、解放雙手和眼睛,在很多場(chǎng)景能夠給用戶帶來(lái)巨大的體驗(yàn)優(yōu)化。例如:避免繁瑣操作:手機(jī)眾多APP中直接用語(yǔ)音進(jìn)入一個(gè)應(yīng)用。
很小或沒(méi)有屏幕:智能電視中用語(yǔ)音直接打開(kāi)特定節(jié)目替代操作不便的遙控器、通過(guò)智能穿戴設(shè)備訪問(wèn)互聯(lián)網(wǎng)。手眼無(wú)暇顧及:如開(kāi)車過(guò)程、會(huì)議記錄。發(fā)掘語(yǔ)音數(shù)據(jù)的價(jià)值:如利用電子病歷語(yǔ)音數(shù)據(jù)輔助診療。
互聯(lián)網(wǎng)女皇MaryMeeker在《2016年互聯(lián)網(wǎng)趨勢(shì)》中指出,語(yǔ)音交互將成為人機(jī)交互的新范式。而事實(shí)上隨著智能語(yǔ)音技術(shù)的逐漸成熟以及自然語(yǔ)言理解的發(fā)展,語(yǔ)音已經(jīng)成為不同場(chǎng)景下人與智能設(shè)備之間交互的重要手段。
巨頭紛紛以虛擬語(yǔ)音助手切入智能語(yǔ)音應(yīng)用場(chǎng)景。由于物聯(lián)網(wǎng)涉及太多領(lǐng)域,跨平臺(tái)、跨設(shè)備、跨品牌等諸多因素制約產(chǎn)業(yè)發(fā)展,統(tǒng)一標(biāo)準(zhǔn)是物聯(lián)網(wǎng)行業(yè)發(fā)展的基礎(chǔ),在此邏輯基礎(chǔ)上谷歌、微軟、亞馬遜等科技巨頭紛紛以智能虛擬助手作為切入口,打造開(kāi)放平臺(tái)、以開(kāi)源形式吸引開(kāi)發(fā)者構(gòu)建應(yīng)用開(kāi)發(fā)生態(tài)。
面向消費(fèi)級(jí)產(chǎn)品和專業(yè)級(jí)行業(yè)應(yīng)用,虛擬數(shù)字助手用戶數(shù)與市場(chǎng)規(guī)??焖僭鲩L(zhǎng)。語(yǔ)音、語(yǔ)義等相關(guān)技術(shù)的可用性逐漸提高,帶來(lái)虛擬數(shù)字助手市場(chǎng)的擴(kuò)張。從應(yīng)用方向和場(chǎng)景來(lái)看,主要用于消費(fèi)級(jí)產(chǎn)品和專業(yè)級(jí)行業(yè)應(yīng)用。
消費(fèi)級(jí)市場(chǎng)主要是2C或2B2C,應(yīng)用于衣食住行等生活場(chǎng)景,如手機(jī)、智能車載、智能家居、可穿戴設(shè)備等。專業(yè)級(jí)行業(yè)應(yīng)用主要是2B,應(yīng)用于特定場(chǎng)景,如醫(yī)療、教育、呼叫中心、庭審等各個(gè)行業(yè)。
根據(jù)Tractica的預(yù)測(cè),活躍消費(fèi)者虛擬助手用戶數(shù)量將從2015年3.9億上升至2021年18億,活躍企業(yè)虛擬助手用戶數(shù)量將從2015年1.55億上升至2021年8.43億。虛擬助手市場(chǎng)規(guī)模將從2015年16億美元增長(zhǎng)至2021年158億美元。
消費(fèi)級(jí)產(chǎn)品應(yīng)用場(chǎng)景
消費(fèi)級(jí)市場(chǎng)智能虛擬助手的功能是基于語(yǔ)音交互實(shí)現(xiàn)設(shè)備控制、日程管理、信息查詢、生活服務(wù)、情感陪伴等。
一方面可以通過(guò)開(kāi)放平臺(tái)接入第三方應(yīng)用和服務(wù)豐富智能虛擬助手的功能,目前手機(jī)虛擬助手正是通過(guò)連接各類APP征服終端,另一方面可植入智能硬件終端,向汽車、家居、可穿戴設(shè)備等產(chǎn)品延伸,建立消費(fèi)級(jí)智能語(yǔ)音產(chǎn)品的生態(tài)體系。
智能語(yǔ)音+車載
開(kāi)車時(shí)雙手和雙眼被占用,語(yǔ)音交互成為該場(chǎng)景下最合適的交互方式。智能語(yǔ)音與汽車的結(jié)合主要為智能車載產(chǎn)品,通過(guò)語(yǔ)音完成導(dǎo)航、音樂(lè)搜索與播放、信息聽(tīng)寫(xiě)等。隨著車聯(lián)網(wǎng)的發(fā)展,未來(lái)將跟社交、娛樂(lè)、餐飲等服務(wù)進(jìn)一步結(jié)合,在保證安全的前提下提升駕乘體驗(yàn)。
騰訊汽車等相關(guān)調(diào)研機(jī)構(gòu)的數(shù)據(jù)顯示智能車載系統(tǒng)的迭代更新過(guò)程中,語(yǔ)音交互的作用和重要性已經(jīng)越來(lái)越得到車主的認(rèn)可。IMSResearch預(yù)計(jì)到2019年全球?qū)⒂?5%的新車搭載智能語(yǔ)音系統(tǒng)。
在智能車載領(lǐng)域,Nuance、蘋(píng)果、谷歌、科大訊飛、百度等語(yǔ)音識(shí)別巨頭分別推出DragonDrive車載語(yǔ)音開(kāi)發(fā)平臺(tái)、CarPlay、AndroidAuto、汽車語(yǔ)點(diǎn)系統(tǒng)、CarLife等智能車載系統(tǒng),并紛紛與汽車廠商達(dá)成合作,搶占智能車載新興市場(chǎng)。
智能語(yǔ)音+家居
智能家居產(chǎn)業(yè)處于快速發(fā)展期,語(yǔ)音控制逐漸成為常見(jiàn)技能點(diǎn)。智能語(yǔ)音可以跟電視、音響、空調(diào)、窗簾、燈具、玩具等各種家用設(shè)備和智能家居控制中樞系統(tǒng)相結(jié)合,通過(guò)語(yǔ)音交互實(shí)現(xiàn)一個(gè)入口控制全部功能。
大數(shù)據(jù)及人工智能技術(shù)的推動(dòng)、關(guān)鍵技術(shù)與部件成本的下降以及產(chǎn)業(yè)聯(lián)盟標(biāo)準(zhǔn)化協(xié)議的建立帶來(lái)智能家居市場(chǎng)規(guī)模的快速增長(zhǎng)。Statista研究數(shù)據(jù)顯示,2016年全球智能家居市場(chǎng)規(guī)模已經(jīng)達(dá)到168億美元,其中中國(guó)市場(chǎng)占7%,預(yù)計(jì)到2021年全球智能家居市場(chǎng)規(guī)模將達(dá)到793億美元,中國(guó)市場(chǎng)份額上升至17%。
國(guó)外互聯(lián)網(wǎng)巨頭紛紛以智能家居產(chǎn)品與智能語(yǔ)音相結(jié)合的方式進(jìn)入智能家居領(lǐng)域。蘋(píng)果于2014年推出HomeKit智能家居平臺(tái),并與Siri不斷加強(qiáng)融合。
亞馬遜2014年推出的搭載Alexa的Echo智能音箱,通過(guò)語(yǔ)音可以實(shí)現(xiàn)播放音樂(lè)、新聞、網(wǎng)購(gòu)下單、Uber叫車、定外賣等任務(wù),根據(jù)CIRP、RBCCapitalMarket等公司的估計(jì),自2014年發(fā)售以來(lái),Echo系列產(chǎn)品累計(jì)銷售量接近一千萬(wàn)臺(tái),銷售額達(dá)到8-10億美元。
2016年谷歌推出GoogleHome智能音箱,搭載GoogleAssistant虛擬助手,積極強(qiáng)化GoogleAssistant在智能家居領(lǐng)域的布局。從互聯(lián)網(wǎng)巨頭的布局可以看出智能語(yǔ)音與智能家居的融合是大勢(shì)所趨。
智能語(yǔ)音+可穿戴設(shè)備
可穿戴設(shè)備受硬件形態(tài)的約束,語(yǔ)音交互方式相比觸摸交互方式具有顯著優(yōu)勢(shì)。智能語(yǔ)音技術(shù)的引入可將設(shè)備從智能手機(jī)上解放出來(lái),創(chuàng)造獨(dú)立體驗(yàn)。例如出門(mén)問(wèn)問(wèn)Ticwear內(nèi)置貼片式SIM芯片與3G通訊模塊,擁有獨(dú)立通訊號(hào)碼并可實(shí)現(xiàn)實(shí)時(shí)在線,支持包括語(yǔ)音撥號(hào)、短信、拍照,微信語(yǔ)音回復(fù),語(yǔ)音搜索等功能在內(nèi)的全中文語(yǔ)音交互。
智能語(yǔ)音在可穿戴設(shè)備上的滲透促進(jìn)可穿戴設(shè)備產(chǎn)業(yè)及智能語(yǔ)音應(yīng)用的增長(zhǎng)。蘋(píng)果2016年發(fā)布無(wú)線耳機(jī)AirPods,能與蘋(píng)果手機(jī)上的Siri進(jìn)行語(yǔ)音交互。
根據(jù)市場(chǎng)調(diào)研公司SliceIntelligence發(fā)布的美國(guó)無(wú)線耳機(jī)市場(chǎng)線上銷售情況報(bào)告,蘋(píng)果2016年發(fā)布的AirPods在上市銷售的一個(gè)月后迅速占據(jù)了無(wú)線耳機(jī)市場(chǎng)26%的市場(chǎng)份額。
根據(jù)前瞻產(chǎn)業(yè)研究院的預(yù)測(cè),中國(guó)健身及運(yùn)動(dòng)類可穿戴設(shè)備市場(chǎng)規(guī)模將從2015年90億元左右增加至2021年244億元,年復(fù)合增長(zhǎng)率達(dá)18%,智能語(yǔ)音在可穿戴設(shè)備上的滲透將促進(jìn)智能語(yǔ)音產(chǎn)業(yè)規(guī)??焖僭鲩L(zhǎng)。
專業(yè)級(jí)行業(yè)應(yīng)用場(chǎng)景
專業(yè)級(jí)市場(chǎng)虛擬助手適用于多種應(yīng)用場(chǎng)景,從實(shí)現(xiàn)功能來(lái)看主要形式有語(yǔ)音識(shí)別轉(zhuǎn)寫(xiě)以及語(yǔ)音、語(yǔ)義內(nèi)容的分析,以醫(yī)療、教育和客服三個(gè)領(lǐng)域?yàn)槔?,語(yǔ)音技術(shù)與場(chǎng)景的深度融合將為技術(shù)壁壘構(gòu)建應(yīng)用端的護(hù)城河。
智能語(yǔ)音+醫(yī)療
智能語(yǔ)音在醫(yī)療行業(yè)的應(yīng)用主要有三種:語(yǔ)音導(dǎo)診機(jī)器人;電子病歷語(yǔ)音錄入與轉(zhuǎn)寫(xiě)、臨床報(bào)告語(yǔ)音錄入與轉(zhuǎn)寫(xiě)。語(yǔ)音錄入大大提高醫(yī)生工作效率和工作質(zhì)量;患者能夠通過(guò)語(yǔ)音電子病歷系統(tǒng)下載打印,能夠擁有完整、清晰易懂的病歷;醫(yī)院可以科學(xué)管理診療過(guò)程和診療信息。
隨著語(yǔ)音病歷的積累,利用大數(shù)據(jù)技術(shù)和深度學(xué)習(xí)技術(shù)能夠挖掘醫(yī)學(xué)案例語(yǔ)音資料的價(jià)值,實(shí)現(xiàn)智能輔助診療。
Nuance是全球智能語(yǔ)音醫(yī)療解決方案的龍頭企業(yè)。Nuance的醫(yī)療解決方案已經(jīng)覆蓋了全美72%的醫(yī)療機(jī)構(gòu),客戶遍及全球30多個(gè)國(guó)家,每年獲得3億多醫(yī)患交流數(shù)據(jù)。
每年為超過(guò)50萬(wàn)名醫(yī)生、1萬(wàn)個(gè)醫(yī)療機(jī)構(gòu)提供服務(wù),醫(yī)療產(chǎn)品也實(shí)現(xiàn)了多樣化:臨床文檔改良(CDI)、臨床語(yǔ)音識(shí)別、實(shí)時(shí)聽(tīng)寫(xiě)、計(jì)算機(jī)輔助編碼、醫(yī)療質(zhì)量把控、移動(dòng)云計(jì)算等。
國(guó)內(nèi)科大訊飛也積極布局醫(yī)療領(lǐng)域,2016年與北京大學(xué)口腔醫(yī)院口腔數(shù)字化醫(yī)療技術(shù)和材料國(guó)家工程實(shí)驗(yàn)室共建基于語(yǔ)音的門(mén)診病歷采集系統(tǒng)正式進(jìn)入試點(diǎn),目前科大訊飛的智能語(yǔ)音系統(tǒng)已在北大口腔、瑞金醫(yī)院、301醫(yī)院等超過(guò)20家醫(yī)院落地使用。
智能語(yǔ)音+教育
智能語(yǔ)音在教育上的應(yīng)用主要圍繞教育體系下學(xué)、練、測(cè)、評(píng)”等核心需求,主要產(chǎn)品有智能語(yǔ)音訓(xùn)練與評(píng)測(cè)、互動(dòng)教學(xué)等。
作為國(guó)內(nèi)智能語(yǔ)音在教育方面的應(yīng)用先行者,科大訊飛已經(jīng)將智能語(yǔ)音技術(shù)應(yīng)用在口語(yǔ)訓(xùn)練與考試、互動(dòng)教學(xué)以及兒童早教智能硬件等產(chǎn)品,而基于語(yǔ)音基礎(chǔ)上拓展開(kāi)的語(yǔ)義分析技術(shù)則開(kāi)始逐漸應(yīng)用于主觀題評(píng)閱等環(huán)節(jié)。
智能語(yǔ)音+客服
智能語(yǔ)音與客戶服務(wù)的結(jié)合能夠運(yùn)用在金融、電信、交通、智能語(yǔ)音與客戶服務(wù)的結(jié)合能夠運(yùn)用在金融、電信、交通、O2O、旅游等各個(gè)行業(yè),主要形式有、旅游等各個(gè)行業(yè),主要形式有智能問(wèn)答、語(yǔ)音質(zhì)檢、語(yǔ)料挖掘、隱私保護(hù)。
相比傳統(tǒng)客戶服務(wù),智能語(yǔ)音的引入能夠發(fā)揮三方面的作用:降低企業(yè)運(yùn)營(yíng)成本,智能客服有效減少客服坐席,減少培訓(xùn)成本,智能語(yǔ)音質(zhì)檢能夠提升質(zhì)檢效率,降低質(zhì)檢人力成本。
提高營(yíng)銷能力,智能客服能夠?qū)崿F(xiàn)快速反應(yīng)、為重點(diǎn)和熱點(diǎn)問(wèn)題提供快速統(tǒng)一答復(fù),確保服務(wù)標(biāo)準(zhǔn)化24小時(shí)全天候在線為客戶提供問(wèn)題解決方案,輔助商業(yè)決策。
語(yǔ)音識(shí)別全文轉(zhuǎn)寫(xiě)能夠?qū)崿F(xiàn)全量客服質(zhì)檢,同時(shí)可以利用自然語(yǔ)言處理技術(shù)分析文本,挖掘客戶信息,輔助制定企業(yè)商業(yè)策略。充分尊重客戶隱私,隱藏客戶真實(shí)身份,防止人工客服對(duì)客戶的騷擾。
根據(jù)中國(guó)產(chǎn)業(yè)信息網(wǎng)的數(shù)據(jù),2014年中國(guó)呼叫中心坐席總數(shù)達(dá)85萬(wàn)個(gè),呼叫中心座席規(guī)模近年來(lái)保持穩(wěn)定增長(zhǎng),隨著人口紅利的消失,企業(yè)對(duì)智能客服的需求會(huì)越來(lái)越強(qiáng)烈,智能語(yǔ)音在客服領(lǐng)域有較大的滲透空間。
智能語(yǔ)音在呼叫中心領(lǐng)域的應(yīng)用已較為廣泛,Nuance、科大訊飛、騰訊、阿里巴巴等都布局了相應(yīng)業(yè)務(wù)。