語音識別是一門交叉學(xué)科,也被稱為自動語音識別。其目標是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機可讀的輸入,例如按鍵、二進制編碼或者字符序列。與說話人識別及說話人確認不同,后者嘗試識別或確認發(fā)出語音的說話人而非其中所包含的詞匯內(nèi)容。
語音識別技術(shù)在國際的發(fā)展
早在三四十年前,美國的一些大學(xué)和實驗室就開始了語音識別技術(shù)的研究,50年代的AT&T Bell實驗室研發(fā)的Audry系統(tǒng)第一個實現(xiàn)了可識別十個英文數(shù)字。60和70年代,提出了線性預(yù)測分析技術(shù)(LP)等相關(guān)理論并深入研究,創(chuàng)造出可以實現(xiàn)特定人孤立語音識別系統(tǒng);
80年代和90年代是語音識別技術(shù)應(yīng)用研究方向的高潮,HMM模型和人工神經(jīng)元網(wǎng)絡(luò)(ANN)的成功應(yīng)用,使得語音識別系統(tǒng)的性能比以往更優(yōu)異;伴隨著多媒體時代的來臨,微軟,Apple等著名公司都研發(fā)出相當(dāng)成功的商業(yè)應(yīng)用語音識別系統(tǒng),比如,Apple的Siri系統(tǒng),微軟的Phone Query(電話語音識別)引擎等。
語音識別技術(shù)在國內(nèi)的發(fā)展
我國的語音識別研究工作雖然起步較晚,但由于國家的重視,研究工作進展順利,相關(guān)研究緊跟國際水平。由于中國有不可忽視的龐大市場,國外對中國的語音識別技術(shù)也非常重視,漢語語音語義的特殊性也使得中文語音識別技術(shù)的研究更具有挑戰(zhàn)。但是,國內(nèi)研究機構(gòu)在進行理論研究的同時,應(yīng)注重語音識別系統(tǒng)在商業(yè)中的應(yīng)用,加快從實驗室演示系統(tǒng)到商品的轉(zhuǎn)化。
二十世紀末,語音識別系統(tǒng)已經(jīng)在電腦游戲和玩具,不同樂器的控制,數(shù)據(jù)采集和聽寫等方面發(fā)現(xiàn)了廣泛的應(yīng)用。而在近二十年,由于人工智能和機器學(xué)習(xí)迅猛發(fā)展,語音識別技術(shù)取得顯著進步,語音控制也變得更為實用,開始從實驗室走向市場。
《互聯(lián)網(wǎng)趨勢》報告中曾談及語音將是人機交互的新范式,語音技術(shù)將解放人類雙手和眼睛,用戶以較低的成本實現(xiàn)隨時訪問。人們預(yù)計,未來10年內(nèi),語音識別技術(shù)將進入工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務(wù)、消費電子產(chǎn)品等各個領(lǐng)域。未來與智能家居、可穿戴設(shè)備、機器人等交互模式,語音將是最佳人機交互模式。
近二十年,語音識別技術(shù)取得顯著進步,但識別的準確性問題一直阻礙著智能語音的進一步發(fā)展。目前在實際應(yīng)用中,我們看見語音識別多是在智能家居領(lǐng)域,比如智能家電或智能音箱。此時,我們就需要考慮一個問題了,當(dāng)多個家庭成員同時講話時,智能家電或智能音箱該執(zhí)行誰的命令呢?它們又如何能在眾多聲音中找出自己主人的命令?這些都是當(dāng)前語音識別所需要解決的問題,畢竟我們通常所說的語音識別不僅僅只是單純的對語音內(nèi)容進行識別。
隨著準確性的提升,語音識別應(yīng)用范圍將不斷拓寬,語音交互也逐漸成為可能。不過在語音識別更新迭代的過程中,新舊共存現(xiàn)象必可避免,在初期混亂的市場藍海中,只有看清發(fā)展大勢,方能真正抓住機遇,迎來新發(fā)展。