人類進(jìn)行信息交流與處理過程
人類在利用語音進(jìn)行信息交流時(shí),說話人的大腦會(huì)產(chǎn)生思想,通過語言轉(zhuǎn)換,再經(jīng)過發(fā)生器官發(fā)出相應(yīng)的語音;語音的聲波經(jīng)過空氣傳播傳到聽話人的耳朵,通過聽覺器官傳送到大腦,由此理解該語音所表達(dá)的意思。
計(jì)算機(jī)正是模擬人類的進(jìn)行信息交流與處理的過程,才能明白你在說什么,其中就包括以下幾個(gè)步驟:
1、將大腦產(chǎn)生的思想轉(zhuǎn)換成語言;
2、將語言轉(zhuǎn)換成相應(yīng)的語音;
3、識(shí)別表達(dá)語言的語音內(nèi)容;
4、理解語音所表達(dá)的語言意義。
語音識(shí)別的發(fā)展歷程
1952年
貝爾研究所Davis等人成功研究出了世界上第一個(gè)能識(shí)別10個(gè)英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng):Audry系統(tǒng)。
60年代
計(jì)算機(jī)的應(yīng)用推動(dòng)了語音識(shí)別技術(shù)的發(fā)展,其中線性預(yù)測(cè)分析是進(jìn)行語音信號(hào)分析最有效和最流行的分析技術(shù)之一,它較好的解決了語音信號(hào)產(chǎn)生模型的問題,對(duì)語音識(shí)別技術(shù)的發(fā)展產(chǎn)生了深遠(yuǎn)影響。
70年代
在小詞匯量、孤立詞的識(shí)別方面取得了實(shí)質(zhì)性的進(jìn)展,并且提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。在同一時(shí)期,統(tǒng)計(jì)方法開始被用來解決語音識(shí)別的關(guān)鍵問題,這為接下來的非特定人大詞匯量連續(xù)語音識(shí)別技術(shù)走向成熟奠定了重要的基礎(chǔ)。
80年代
逐漸由孤立詞識(shí)別轉(zhuǎn)向連接詞識(shí)別。1987年,IT界知名人物李開復(fù)開發(fā)出世界上第一個(gè)非特定人連續(xù)語音識(shí)別系統(tǒng),用統(tǒng)計(jì)方法提升語音識(shí)別率。
90年代
大詞匯量連續(xù)語音識(shí)別得到優(yōu)化。1997年。IBM Viavoice首個(gè)語音聽寫產(chǎn)品問世,你只用對(duì)著話筒喊出你要輸入的字符,它就會(huì)自動(dòng)判斷并且?guī)湍爿斎胛淖帧?/span>
2010年
Google Voice Action支持語音操作與搜索,該系統(tǒng)具有說話人自適應(yīng)能力,新用戶不需要對(duì)全部詞匯進(jìn)行訓(xùn)練便可在使用中不斷提高識(shí)別率。
2011年
微軟的深度神經(jīng)網(wǎng)絡(luò)DNN模型在語音搜索任務(wù)上獲得成功,科大訊飛將DNN首次成功應(yīng)用到中文語音識(shí)別領(lǐng)域,并通過語音云平臺(tái)提供給廣大開發(fā)者使用。
2011.10
蘋果iphone 4s 的發(fā)布,推出了個(gè)人虛擬語音助理Siri,人工交互的革命史翻開了新篇章。
2013年
Google發(fā)布了Google Glass,蘋果也加大了對(duì)iwatch的研發(fā)投入,穿戴式語音交互設(shè)備成為新熱點(diǎn)。
未來
從此,語音識(shí)別技術(shù)陸續(xù)進(jìn)入工業(yè)、家電、通信、車載導(dǎo)航、醫(yī)療、家庭服務(wù)、消費(fèi)電子產(chǎn)品等各個(gè)領(lǐng)域。當(dāng)未來有一天,機(jī)器能夠真正理解人類的語言,并做出回應(yīng),那時(shí),我們將會(huì)迎來一個(gè)嶄新的時(shí)代。
電話機(jī)器人(http://www.hzdaba.com)