近日,云從科技在語音識別技術上取得重大突破,在全球最大的開源語音識別數據集Librispeech上刷新了世界紀錄,錯詞率(Worderrorrate,WER)降到了2.97%,將Librispeech的WER指標提升了25%,超過阿里、百度、約翰霍普金斯大學等企業及高校,大幅刷新原先記錄。

(圖片來源自網絡,如有侵權,請聯系刪除。)
此次突破標志著云從科技在今年4月刷新跨鏡追蹤技術(ReID)三項世界紀錄后在新領域再次取得重大成果,正全力夯實核心技術閉環。
云從科技核心技術閉環包括人臉識別、智能感知與智能分析三個階段。

(圖片來源自網絡,如有侵權,請聯系刪除。)
此次語音識別突破屬于智能感知中的一環。智能感知即視覺、聽覺、觸覺等感知能力,能夠讓計算機通過各種智能感知能力與外界進行交互。
時隔半年 再次刷新世界紀錄
今年4月,云從科技跨鏡追蹤技術(ReID)在Market-1501,DukeMTMC-reID,CUHK03三個數據集刷新了世界紀錄,其中最高在Market-1501上的首位命中率(Rank-1 Accuracy)達到96.6%,讓跨鏡追蹤技術(ReID)技術在準確率上首次達到商用水平,人工智能從「刷臉」跨到「識人」的新紀元。
語音識別技術同樣是智能感知中一個重要的部分。 通過語音識別,機器就可以像人類一樣聽懂說話,進而能夠理解、思考與反饋。
近年來,在深度學習技術的幫助下,語音識別取得了極大的進展,從實驗室開始走向市場,走向實用化。基于語音識別技術的輸入法、搜索和翻譯等人機交互場景都有了廣泛的應用。
Librispeech 是當前衡量語音識別技術的最權威主流的開源數據集。錯詞率(Worderrorrate,WER)是衡量語音識別技術水平的核心指標。

(圖片來源自網絡,如有侵權,請聯系刪除。)
云從科技在Librispeech數據集上刷新了業內最好的水平,將錯詞率(Worderrorrate,WER)降到了驚人的2.97%,較之前提升了25%,已超越人類專業速記員水平。
能夠獲得如此大幅度的突破,充分說明云從科技語音識別研究成果的價值,該成果必然能夠推動語音識別技術的大幅進步,也使得語音識別離更良好的交互體驗越來越近。
云從科技此次推出的語音識別模型將殘差卷積網絡和金字塔記憶模塊的序列記憶網絡相結合, 能夠同時有效的提取空間和時間上不同粒度的信息,對比目前業界使用最為廣泛的LSTM模型,訓練速度更快、識別準確率更高。
構建核心技術閉環實現人工智能“五步走”戰略
在10月12日的國家發改委“人工智能基礎資源公共服務平臺”項目發布會上,云從科技創始人周曦提出了人工智能發展的五個階段,核心技術閉環是五個階段的重要基礎。
云從科技在今年先后首發3D結構光人臉識別技術及刷新跨鏡追蹤技術三項世界紀錄,并在金融、安防、機場等優勢行業建設基于智能分析的“行業大腦”,穩步推進從核心技術到智能生態的五步走戰略。

(圖片來源自網絡,如有侵權,請聯系刪除。)
目前,云從科技是中國銀行業第一大AI供應商。包括農行、建行、中行、招行總行等全國400多家銀行已采用公司產品,為全國銀行提供對比服務日均2.16億次,同時為14.7萬家社會網點提供服務。
在安防領域,公司產品已在29個省級行政區上線實戰,每天比對超過10億次,數據匯聚總量超過千億,協助全國公安抓獲超過1萬名犯罪嫌疑人;
民航領域,全國多個樞紐機場選擇云從產品,日服務旅客人數達到6千萬。
在這些基礎上,云從科技正在致力整合算力、智力、數據等資源及其成果,打造人工智能平臺,進一步促進人工智能在金融、安防、交通、零售、教育等重要行業的落地。
Pyramidal-FSMN語音識別模型原理解析
云從科技提出的新型網絡結構,能更加有效的提取空間和時間特征的角度,為語音識別進一步發展提供了一些新的思路:
模型設計采用一種殘差卷積網絡和金字塔記憶模塊的序列記憶網絡相結合的結構;
訓練方式使用lattice-free最大互信息(lattice-free maximum mutual information, LF-MMI/Chain)與交叉熵(crossentropy,CE)損失函數相結合的多任務學習技術;
解碼部分采取RNNLM rescoring的方式,利用RNN提取一個句子中的長期語義信息,從而更有效地幫助聲學模型得到準確的句子。
如下圖所示,作者采用了由6層ResidualCNN和10層Pyramidal-FSMN相結合的網絡結構。

(圖片來源自網絡,如有侵權,請聯系刪除。)
前端網絡借鑒了圖像識別中經典的Residual CNN結構,更有效地提取特征與時間相互的關聯信息,同時skipconnection避免了CNN網絡加深之后梯度消失和梯度爆炸問題。
在金字塔記憶模塊中,淺層的網絡主要聚焦于音素本身的特征學習,所以只需抽取短時上下文信息,而深層的網絡由于已經學習到了足夠的固定時間的音素信息,需要學習長時間包括語義和語法特征,所以深層抽取長時間的上下文信息。利用這樣的金字塔結構,既能減少參數,縮小模型結構,也能更加精巧的模擬人類處理語音信號的過程,提高識別效果。
在損失函數部分 ,作者采用了基于LF-MMI的序列性訓練方式。 同時為了解決序列性訓練容易導致過擬合的問題,又引入了傳統的交叉熵損失函數,在LF-MMI輸出之外加入另一個輸出層作為一個正則技術,通過設置交叉熵的正則化系數,兩個目標能夠有效地學習并且避免過擬合問題。
最后,作者使用了RNNLM rescoring技術對解碼做進一步處理。在沒有RNNLM rescoring的情況下,Pyramidal-FSMN已經達到了目前最好的結果,rescoring之后又有了更進一步的提升。
聲學模型和RNNLM的訓練數據完全基于Librispeech和通用的語言模型數據集,并沒有額外引入其他的訓練數據這樣的“技巧”性策略。

(圖片來源自網絡,如有侵權,請聯系刪除。)

(圖片來源自網絡,如有侵權,請聯系刪除。)
此次突破標志著云從科技在今年4月刷新跨鏡追蹤技術(ReID)三項世界紀錄后在新領域再次取得重大成果,正全力夯實核心技術閉環。
云從科技核心技術閉環包括人臉識別、智能感知與智能分析三個階段。

(圖片來源自網絡,如有侵權,請聯系刪除。)
此次語音識別突破屬于智能感知中的一環。智能感知即視覺、聽覺、觸覺等感知能力,能夠讓計算機通過各種智能感知能力與外界進行交互。
時隔半年 再次刷新世界紀錄
今年4月,云從科技跨鏡追蹤技術(ReID)在Market-1501,DukeMTMC-reID,CUHK03三個數據集刷新了世界紀錄,其中最高在Market-1501上的首位命中率(Rank-1 Accuracy)達到96.6%,讓跨鏡追蹤技術(ReID)技術在準確率上首次達到商用水平,人工智能從「刷臉」跨到「識人」的新紀元。
語音識別技術同樣是智能感知中一個重要的部分。 通過語音識別,機器就可以像人類一樣聽懂說話,進而能夠理解、思考與反饋。
近年來,在深度學習技術的幫助下,語音識別取得了極大的進展,從實驗室開始走向市場,走向實用化。基于語音識別技術的輸入法、搜索和翻譯等人機交互場景都有了廣泛的應用。
Librispeech 是當前衡量語音識別技術的最權威主流的開源數據集。錯詞率(Worderrorrate,WER)是衡量語音識別技術水平的核心指標。

(圖片來源自網絡,如有侵權,請聯系刪除。)
DS2:百度,ESPnet:約翰霍普金斯大學,DFSMN-CE:阿里
在技術研究的「最后一英里」,每 0.1 個百分點的進步都異常艱難。云從科技在Librispeech數據集上刷新了業內最好的水平,將錯詞率(Worderrorrate,WER)降到了驚人的2.97%,較之前提升了25%,已超越人類專業速記員水平。
能夠獲得如此大幅度的突破,充分說明云從科技語音識別研究成果的價值,該成果必然能夠推動語音識別技術的大幅進步,也使得語音識別離更良好的交互體驗越來越近。
云從科技此次推出的語音識別模型將殘差卷積網絡和金字塔記憶模塊的序列記憶網絡相結合, 能夠同時有效的提取空間和時間上不同粒度的信息,對比目前業界使用最為廣泛的LSTM模型,訓練速度更快、識別準確率更高。
構建核心技術閉環實現人工智能“五步走”戰略
在10月12日的國家發改委“人工智能基礎資源公共服務平臺”項目發布會上,云從科技創始人周曦提出了人工智能發展的五個階段,核心技術閉環是五個階段的重要基礎。
云從科技在今年先后首發3D結構光人臉識別技術及刷新跨鏡追蹤技術三項世界紀錄,并在金融、安防、機場等優勢行業建設基于智能分析的“行業大腦”,穩步推進從核心技術到智能生態的五步走戰略。

(圖片來源自網絡,如有侵權,請聯系刪除。)
目前,云從科技是中國銀行業第一大AI供應商。包括農行、建行、中行、招行總行等全國400多家銀行已采用公司產品,為全國銀行提供對比服務日均2.16億次,同時為14.7萬家社會網點提供服務。
在安防領域,公司產品已在29個省級行政區上線實戰,每天比對超過10億次,數據匯聚總量超過千億,協助全國公安抓獲超過1萬名犯罪嫌疑人;
民航領域,全國多個樞紐機場選擇云從產品,日服務旅客人數達到6千萬。
在這些基礎上,云從科技正在致力整合算力、智力、數據等資源及其成果,打造人工智能平臺,進一步促進人工智能在金融、安防、交通、零售、教育等重要行業的落地。
Pyramidal-FSMN語音識別模型原理解析
云從科技提出的新型網絡結構,能更加有效的提取空間和時間特征的角度,為語音識別進一步發展提供了一些新的思路:
模型設計采用一種殘差卷積網絡和金字塔記憶模塊的序列記憶網絡相結合的結構;
訓練方式使用lattice-free最大互信息(lattice-free maximum mutual information, LF-MMI/Chain)與交叉熵(crossentropy,CE)損失函數相結合的多任務學習技術;
解碼部分采取RNNLM rescoring的方式,利用RNN提取一個句子中的長期語義信息,從而更有效地幫助聲學模型得到準確的句子。
如下圖所示,作者采用了由6層ResidualCNN和10層Pyramidal-FSMN相結合的網絡結構。

(圖片來源自網絡,如有侵權,請聯系刪除。)
前端網絡借鑒了圖像識別中經典的Residual CNN結構,更有效地提取特征與時間相互的關聯信息,同時skipconnection避免了CNN網絡加深之后梯度消失和梯度爆炸問題。
在金字塔記憶模塊中,淺層的網絡主要聚焦于音素本身的特征學習,所以只需抽取短時上下文信息,而深層的網絡由于已經學習到了足夠的固定時間的音素信息,需要學習長時間包括語義和語法特征,所以深層抽取長時間的上下文信息。利用這樣的金字塔結構,既能減少參數,縮小模型結構,也能更加精巧的模擬人類處理語音信號的過程,提高識別效果。
在損失函數部分 ,作者采用了基于LF-MMI的序列性訓練方式。 同時為了解決序列性訓練容易導致過擬合的問題,又引入了傳統的交叉熵損失函數,在LF-MMI輸出之外加入另一個輸出層作為一個正則技術,通過設置交叉熵的正則化系數,兩個目標能夠有效地學習并且避免過擬合問題。
最后,作者使用了RNNLM rescoring技術對解碼做進一步處理。在沒有RNNLM rescoring的情況下,Pyramidal-FSMN已經達到了目前最好的結果,rescoring之后又有了更進一步的提升。
聲學模型和RNNLM的訓練數據完全基于Librispeech和通用的語言模型數據集,并沒有額外引入其他的訓練數據這樣的“技巧”性策略。

(圖片來源自網絡,如有侵權,請聯系刪除。)
論文@云從科技
相關介紹:LibriSpeech數據集:世界最大的免費語音識別數據庫,包含文本和語音的有聲讀物數據集,由1000小時的多人朗讀的清晰音頻組成,且包含書籍的章節結構。