你的位置:首頁(yè) > 測(cè)試測(cè)量 > 正文
智能語(yǔ)音前端處理中有哪些關(guān)鍵問(wèn)題需要解決?
發(fā)布時(shí)間:2017-07-19 責(zé)任編輯:wenwei
【導(dǎo)讀】隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,安靜環(huán)境下的語(yǔ)音識(shí)別已基本達(dá)到實(shí)用的要求;但是面對(duì)真實(shí)環(huán)境下噪聲、混響、回聲的干擾,面對(duì)著更自然隨意的口語(yǔ)表達(dá),語(yǔ)音識(shí)別的性能明顯下降;尤其是遠(yuǎn)講環(huán)境下的語(yǔ)音識(shí)別,還難以達(dá)到實(shí)用的要求。
語(yǔ)音前端處理技術(shù)對(duì)于提高語(yǔ)音識(shí)別的魯棒性起到了非常重要的作用;通過(guò)前端處理模塊抑制各種干擾,使待識(shí)別的語(yǔ)音更干凈;尤其是面向智能家居和智能車載中的語(yǔ)音識(shí)別系統(tǒng),語(yǔ)音前端處理模塊扮演著重要角色。除了語(yǔ)音識(shí)別,語(yǔ)音前端處理算法在語(yǔ)音通信和語(yǔ)音修復(fù)中也有著廣泛的應(yīng)用。
在面向語(yǔ)音識(shí)別的語(yǔ)音前端處理算法,通過(guò)回聲消除、噪聲抑制、去混響提高語(yǔ)音識(shí)別的魯棒性;真實(shí)環(huán)境中包含著背景噪聲、人聲、混響、回聲等多種干擾源,上述因素組合到一起,使得這一問(wèn)題更具挑戰(zhàn)性。
遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別的幾個(gè)典型的應(yīng)用場(chǎng)景,包括:智能機(jī)器人、智能家居等,此外智能車載也有著非常廣泛的應(yīng)用。為了使得這幾個(gè)典型應(yīng)用場(chǎng)景的技術(shù)真正落地,需要解決一系列技術(shù)痛點(diǎn),語(yǔ)音前端處理的一個(gè)最為重要的目標(biāo)是實(shí)現(xiàn)釋放雙手的語(yǔ)音交互,使得人機(jī)之間更自然的交互。
此圖形象的描述的語(yǔ)音前端處理模塊的幾個(gè)關(guān)鍵問(wèn)題:Echo:遠(yuǎn)端揚(yáng)聲器播放的聲音回傳給麥克;Diffuse Noise:無(wú)向噪聲的干擾;Reflected Sound:聲音通過(guò)墻壁反射,造成混響干擾;Interference:其他方向的干擾源; Target Speech:目標(biāo)方向聲音。Microphone Array:利用麥克風(fēng)陣列拾音。
語(yǔ)音前端處理模塊跟語(yǔ)音交互系統(tǒng)的關(guān)系:橙色部分表示多通道處理模塊,藍(lán)色部分表示單通道處理模塊,紅色部分表示后端識(shí)別合成等模塊。麥克風(fēng)陣列采集的語(yǔ)音首先利用參考源對(duì)各通道的信號(hào)進(jìn)行回波消除,然后確定聲源的方向信息,進(jìn)而通過(guò)波束形成算法來(lái)增強(qiáng)目標(biāo)方向的聲音,再通過(guò)混響消除方法抑制混響;需要強(qiáng)調(diào)的是可以先進(jìn)行多通道混響消除再進(jìn)行波束形成,也可以先進(jìn)行波束形成再進(jìn)行單通道混響消除。經(jīng)過(guò)上述處理后的單路語(yǔ)音進(jìn)行后置濾波消除殘留的音樂(lè)噪聲,然后通過(guò)自動(dòng)增益算法調(diào)節(jié)各個(gè)頻帶的能量后最為前端處理的輸出,將輸出的音頻傳遞給后端進(jìn)行識(shí)別和理解。
對(duì)于遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別,更多的是采用雙麥克,甚至是多麥克進(jìn)行聲音采集,這是由于單麥克遠(yuǎn)距離拾音能力有限,而麥克風(fēng)陣列可以有效的增強(qiáng)目標(biāo)方向聲音。上圖為麥克風(fēng)陣列采集語(yǔ)音的示意圖,各個(gè)通道的信號(hào)通過(guò)濾波器加權(quán)融合,Y為多通道融合增強(qiáng)后的語(yǔ)音,可以將其分解為兩部分:目標(biāo)語(yǔ)音成分和殘留噪聲成分;殘留噪聲成分可以通過(guò)后置濾波算法進(jìn)一步處理,也可以通過(guò)改進(jìn)麥克風(fēng)陣列波束形成算法使這一成分得到有效抑制。
一、回聲消除的方法:
在遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別系統(tǒng)中,回聲消除最典型的應(yīng)用是智能終端播放音樂(lè),遠(yuǎn)端揚(yáng)聲器播放的音樂(lè)會(huì)回傳給近端麥克風(fēng),此時(shí)需要有效的回聲消除算法來(lái)抑制遠(yuǎn)端信號(hào)的干擾?;芈曄膬蓚€(gè)難點(diǎn)是雙講檢測(cè)和延時(shí)估計(jì),對(duì)于智能終端的回聲消除模塊,解決雙講條件下對(duì)遠(yuǎn)端干擾源的抑制是最為關(guān)鍵的問(wèn)題。
這是一個(gè)更為復(fù)雜的回聲消除系統(tǒng),近端通過(guò)麥克風(fēng)陣列采集信號(hào),遠(yuǎn)端是雙聲道揚(yáng)聲器輸出;因此近端需要考慮如何將波束形成算法跟回聲消除算法對(duì)接,遠(yuǎn)端需要考慮如何對(duì)立體聲信號(hào)去相關(guān)。如圖所示DTD部分結(jié)合遠(yuǎn)端信號(hào)和近端信號(hào)進(jìn)行雙講檢測(cè),通過(guò)判斷當(dāng)前的模式(近講模式、遠(yuǎn)講模式、雙講模式)采用不同的策略對(duì)濾波器w1和w2進(jìn)行更新,進(jìn)而濾除遠(yuǎn)端干擾,在此基礎(chǔ)上通過(guò)后置濾波算法消除殘留噪聲的干擾。
二、混響消除方法:
聲音在房間傳輸過(guò)程中,會(huì)經(jīng)過(guò)墻壁或其它障礙物的反射后到達(dá)麥克風(fēng),從而生成混響語(yǔ)音;房間大小、聲源和麥克風(fēng)的位置、室內(nèi)障礙物、混響時(shí)間等因素均影響著混響語(yǔ)音的生成;可以通過(guò)T60描述混響時(shí)間,它的定義為聲源停止發(fā)聲后,聲壓級(jí)減少60dB所需要時(shí)間即為混響時(shí)間。混響時(shí)間過(guò)短,聲音發(fā)干,枯燥無(wú)味不親切自然,混響時(shí)間過(guò)長(zhǎng),會(huì)使聲音含混不清:合適時(shí)聲音圓潤(rùn)動(dòng)聽(tīng)。大多數(shù)房間的混響時(shí)間在200-1000ms范圍內(nèi)。
上圖為一個(gè)典型的房間脈沖響應(yīng),藍(lán)色部分為早期混響,橙色部分為晚期混響;在語(yǔ)音去混響任務(wù)中,更多的關(guān)注于對(duì)晚期混響的抑制。
此圖相對(duì)直觀的描述了混響語(yǔ)音的生成過(guò)程,安靜語(yǔ)音在時(shí)域上卷積房間脈沖響應(yīng)濾波器后生成混響語(yǔ)音;通常語(yǔ)音在傳輸過(guò)程中會(huì)伴隨噪聲的干擾;因此麥克風(fēng)接收到的語(yǔ)音Y包含三個(gè)部分:藍(lán)色部分包括了從聲源直接到達(dá)麥克風(fēng)的語(yǔ)音以及早期混響成分、橙色部分是晚期混響成分、灰色部分是房間中各種噪聲源的干擾。
當(dāng)前主流的混響消除方法主要包括以下四類:基于波束形成方法、基于逆濾波方法、基于語(yǔ)音增強(qiáng)方法、基于深度學(xué)習(xí)方法。基于波束形成的混響消除方法假設(shè)干擾信號(hào)與直達(dá)信號(hào)之間是獨(dú)立的,它對(duì)于抑制加性噪聲非常有效,它并不適用于混響環(huán)境;理論上,逆濾波算法可以獲得較好的混響消除性能,但是缺少能夠在實(shí)際環(huán)境中對(duì)混響等效濾波器進(jìn)行盲估計(jì)的有效算法,因此很難實(shí)際應(yīng)用;譜增強(qiáng)算法根據(jù)預(yù)先定義好的語(yǔ)音信號(hào)的波形或頻譜模型,對(duì)混響信號(hào)進(jìn)行處理,但是該方法難以提取出純凈語(yǔ)音,從而難以有效實(shí)現(xiàn)混響消除。針對(duì)上述問(wèn)題,一些學(xué)者開(kāi)始嘗試基于深度學(xué)習(xí)的語(yǔ)音混響消除方法,這種方法的劣勢(shì)是當(dāng)訓(xùn)練集和測(cè)試集不匹配時(shí),算法性能會(huì)下降。這次報(bào)告重點(diǎn)介紹一種使用比較廣的基于加權(quán)預(yù)測(cè)誤差的混響消除方法。這種方法是由日本的NTTData公司提出并進(jìn)一步改進(jìn)的,能夠適用于單通道和多通道的混響消除。
這種方法的思想和語(yǔ)音編碼中的線性預(yù)測(cè)系數(shù)有些相似,如下圖所示,混響語(yǔ)音信號(hào)Y可以分解為安靜語(yǔ)音成分D混響成分L,L可以通過(guò)先前若干點(diǎn)的Y加權(quán)確定,G表示權(quán)重系數(shù);WPE算法的核心問(wèn)題是確定G,然后估計(jì)出混響消除后的語(yǔ)音。
該算法通過(guò)如下目標(biāo)函數(shù)估計(jì)濾波器系數(shù),具體推倒過(guò)程如下所示,更為詳細(xì)的算法流程可以參考一下網(wǎng)址(kecl.ntt)推薦的論文。
由于早期混響成分有助于提高語(yǔ)音的可懂度,因此可以對(duì)上述的方法進(jìn)行改進(jìn),只抑制晚期混響成分。如下圖所示D同時(shí)包括安靜語(yǔ)音成分和早期混響成分,通過(guò)先前若干點(diǎn)的Y確定L時(shí)沒(méi)有考慮早期混響成分。
在此基礎(chǔ)上將WPE方法擴(kuò)展到多通道混響消除模式,此時(shí)某一通道的晚期混響成分L可以通過(guò)各個(gè)通道先前若干點(diǎn)的Y加權(quán)確定,通過(guò)估計(jì)最優(yōu)的權(quán)重系數(shù)G,消除晚期混響成分的干擾。
基于WPE的多通道混響消除的流程,如果所示需要經(jīng)過(guò)多次迭代確定出濾波器系數(shù)g,生成出混響消除后的語(yǔ)音。輸出的去混響后的各通道語(yǔ)音可以作為波束形成算法的輸入。
三、語(yǔ)音降噪方法:
這個(gè)公式表示第j個(gè)麥克風(fēng)接收到語(yǔ)音信號(hào)時(shí)域上的數(shù)學(xué)表達(dá)式,x表示安靜語(yǔ)音,h表示房間響應(yīng)函數(shù),u表示其它噪聲干擾。接下來(lái)介紹的算法將更多的側(cè)重于對(duì)噪聲源u的抑制。
此公式表示第j個(gè)麥克風(fēng)接收到語(yǔ)音信號(hào)頻域上的數(shù)學(xué)表達(dá)式,X表示安靜語(yǔ)音,H表示房間響應(yīng)函數(shù),U表示其它噪聲干擾。接下來(lái)介紹的算法將更多的側(cè)重于對(duì)噪聲源U的抑制。
波束形成算法的目的:融合多個(gè)通道的信息抑制非目標(biāo)方向的干擾源,增強(qiáng)目標(biāo)方向的聲音。從圖中我們可以看到,各個(gè)麥克風(fēng)接收到的語(yǔ)音信號(hào)存在延時(shí),這種時(shí)延信息能夠反映出聲源的方向;直覺(jué)上分析,通過(guò)對(duì)齊各個(gè)通道的信號(hào),能夠增強(qiáng)目標(biāo)語(yǔ)音信號(hào),同時(shí)由于相位差異可以抵消掉部分干擾成分。
波束形成算法需要解決的核心問(wèn)題是估計(jì)空間濾波器W,它的輸入是麥克風(fēng)陣列采集的多通道語(yǔ)音信號(hào),它的輸出是增強(qiáng)后的單路語(yǔ)音信號(hào)。對(duì)空間濾波器進(jìn)一步細(xì)分,可以分為時(shí)不變線性濾波、時(shí)變線性濾波以及非線性變換模型。最簡(jiǎn)單的延時(shí)求和法屬于時(shí)不變線性濾波,廣義旁瓣濾波法屬于時(shí)變線性濾波,基于深層神經(jīng)網(wǎng)絡(luò)的波束形成屬于非線性變換模型。
通過(guò)波束方向圖可以更直觀的理解波束形成的原理,上圖是一個(gè)麥克風(fēng)陣列算法在f頻帶上所對(duì)應(yīng)的波束方向圖,不同頻帶對(duì)應(yīng)不同的波束方向圖;波束方向圖同時(shí)還依賴于麥克風(fēng)陣列的硬件拓?fù)洌缇€型陣只能實(shí)現(xiàn)180度定向,因此它的波束方向圖是對(duì)稱的。在設(shè)計(jì)波束形成算法時(shí),需要盡可能使得主瓣帶寬盡可能窄,同時(shí)能夠有效的抑制旁瓣增益。在麥克風(fēng)陣列選型上,麥克風(fēng)之間的距離越大,則陣列的定向拾音能力越強(qiáng),但是不能無(wú)限加大麥克風(fēng)之間的距離,需要遵循空間采樣定理。聲學(xué)信號(hào)中的波束形成方法與雷達(dá)信號(hào)處理中的波束形成方法有很多相似之處,但兩者處理的頻帶和帶寬有差異。
麥克風(fēng)陣列算法的數(shù)學(xué)表達(dá)式解析,式中Y表示各個(gè)麥克風(fēng)接收到的信號(hào),綠色部分表示聲源信號(hào),橙色部分表示聲源信號(hào)傳輸?shù)禁溈孙L(fēng)的變換,紅色部分表示各種噪聲源的干擾。因此波束形成算法需要在已知Y的條件下,盡可能準(zhǔn)確的估計(jì)h和u;即估計(jì)導(dǎo)向矢量和噪聲模型。
導(dǎo)向矢量是麥克風(fēng)陣列算法中最為重要的參數(shù),能夠反映聲源傳輸?shù)姆较蛐孕畔ⅲ糜诿枋鰪穆曉吹禁溈孙L(fēng)傳輸過(guò)程中延時(shí)、衰減等特性;下圖為自由場(chǎng)條件下的平面波模型,自由場(chǎng)假設(shè)忽略了混響干擾,遠(yuǎn)距離拾音可以近似為平面波模型;數(shù)學(xué)表達(dá)式中紫色部分表示聲源到達(dá)各個(gè)麥克風(fēng)的時(shí)間差,綠色部分表示聲源向麥克風(fēng)傳輸過(guò)程中的衰減,導(dǎo)向矢量主要跟這兩個(gè)因素有關(guān);在一些算法中會(huì)忽略能量衰減因素的影響。對(duì)導(dǎo)向矢量進(jìn)一步處理也可以對(duì)聲源方位信息進(jìn)行估計(jì)。
通過(guò)廣義互相關(guān)函數(shù)可以確定各個(gè)麥克風(fēng)之間的相對(duì)延時(shí),如下圖所示,尋找廣義互相關(guān)函數(shù)中的峰值點(diǎn),通過(guò)峰值點(diǎn)的位置計(jì)算出相對(duì)延時(shí)。為了進(jìn)一步提高TDOA估計(jì)的魯棒性,可以采用GCC-PHAT方法,這種方法在已有方法基礎(chǔ)上引入了能量歸一化機(jī)制。
下圖為一種改進(jìn)的基于加權(quán)延時(shí)求和的波束形成方法,針對(duì)TDOA模塊,利用維特比算法確定各個(gè)通道的最優(yōu)相對(duì)延時(shí),根據(jù)實(shí)際環(huán)境對(duì)各個(gè)通道的權(quán)重進(jìn)行控制;算法細(xì)節(jié)可以參考BeamformIt工具包,這種算法作為CHIME評(píng)測(cè)比賽中的基線方法。
基于延時(shí)求和的方法計(jì)算復(fù)雜度低,但是它在真實(shí)環(huán)境下的魯棒性差,接下來(lái)介紹一種應(yīng)用更為廣泛的方法:基于最小方差失真響應(yīng)波束形成。如下圖中的數(shù)學(xué)表達(dá)式所示,y表示多通道語(yǔ)音,w表示空間濾波器,x表示增強(qiáng)后的單通道語(yǔ)音,這種波束形成算法的假設(shè)是期望方向上的語(yǔ)音無(wú)失真,也就是wh這項(xiàng)為1;同時(shí)保證對(duì)噪聲的響應(yīng)最小,也就是最小化wu這項(xiàng)。在這兩個(gè)約束條件下估計(jì)最優(yōu)的空間濾波器w。
經(jīng)過(guò)一系列的變換和推倒,我們能夠確定空間濾波器w與噪聲協(xié)方差矩陣和導(dǎo)向矢量的關(guān)系。為了計(jì)算噪聲協(xié)方差矩陣,需要估計(jì)出各個(gè)通道中信號(hào)在各個(gè)頻帶上噪聲成分的互相關(guān)系數(shù),因此對(duì)噪聲成分的有效估計(jì)將直接影響到波束形成算法的性能。對(duì)于導(dǎo)向矢量,可以通過(guò)估計(jì)聲源到達(dá)各個(gè)麥克風(fēng)的相對(duì)延時(shí)來(lái)確定。
為了有效的估計(jì)噪聲協(xié)方差矩陣,需要對(duì)各個(gè)通道信號(hào)的各幀的各個(gè)頻帶的屏蔽值進(jìn)行估計(jì),可以采用二值型屏蔽或浮點(diǎn)型屏蔽;通過(guò)這一屏蔽值可以判斷各個(gè)頻帶是否是噪聲主導(dǎo)以及噪聲所占的比重;在確定了屏蔽值,可以進(jìn)一步計(jì)算出噪聲協(xié)方差矩陣和語(yǔ)音協(xié)方差矩陣;對(duì)于導(dǎo)向矢量,不僅可能通過(guò)到達(dá)各個(gè)麥克風(fēng)的相對(duì)延時(shí)來(lái)確定,還可以通過(guò)語(yǔ)音協(xié)方差矩陣變換得到,導(dǎo)向矢量可以近似的表示為語(yǔ)音協(xié)方差矩陣最大特征值所對(duì)應(yīng)的特征向量。
重點(diǎn)介紹基于最小方差失真響應(yīng)波束形成的流程,對(duì)各個(gè)通道語(yǔ)音首先進(jìn)行屏蔽值估計(jì),然后計(jì)算噪聲協(xié)方差矩陣和語(yǔ)音協(xié)方差矩陣,進(jìn)一步確定導(dǎo)向矢量,通過(guò)導(dǎo)向矢量和噪聲協(xié)方差矩陣估計(jì)空間濾波器,生成波束形成后的單通道語(yǔ)音。
除了基于延時(shí)求和的波束形成和基于最小方差失真響應(yīng)的波束形成,以下幾種波束形成方法應(yīng)用也比較廣泛,包括:基于最大信噪比的波束形成、基于多通道維納濾波的波束形成以及基于廣義旁瓣濾波的波束形成;通過(guò)數(shù)學(xué)表達(dá)式我們可以看出,噪聲協(xié)方差矩陣的估計(jì)起到了非常關(guān)鍵的作用。
下面重點(diǎn)介紹一下基于深度學(xué)習(xí)的波束形成方法;深度學(xué)習(xí)方法在智能語(yǔ)音領(lǐng)域的應(yīng)用非常的廣泛,包括單通道的語(yǔ)音增強(qiáng)和語(yǔ)音去混響問(wèn)題,深度學(xué)習(xí)方法已經(jīng)成為了智能語(yǔ)音領(lǐng)域重要的主流方法之一;不同于單通道語(yǔ)音增強(qiáng),多通道語(yǔ)音增強(qiáng)方法跟麥克風(fēng)陣列的硬件結(jié)構(gòu)高度相關(guān),所以如果直接將各通道譜參數(shù)特征作為輸入,將干凈語(yǔ)音譜參數(shù)特征作為輸出,所訓(xùn)練的模型將受限于硬件結(jié)構(gòu);因此,為了提高模型的泛化能力,更常用的方法是采用深層神經(jīng)網(wǎng)絡(luò)模型對(duì)各個(gè)通道各個(gè)頻帶的屏蔽值進(jìn)行估計(jì)、融合,進(jìn)而計(jì)算出噪聲協(xié)方差矩陣,然后再跟傳統(tǒng)的波束形成方法對(duì)接,如下圖所示的方法是將深層神經(jīng)網(wǎng)絡(luò)方法跟最小方差失真響應(yīng)波束形成方法對(duì)接。
采用這種基于深度學(xué)習(xí)的方法,可以有效的抑制噪聲的干擾,提高增強(qiáng)語(yǔ)音的質(zhì)量。增強(qiáng)后的語(yǔ)音可以輸入到語(yǔ)音識(shí)別系統(tǒng),提高語(yǔ)音識(shí)別的魯棒性。
四、語(yǔ)音前端處理方法在語(yǔ)音識(shí)別中的應(yīng)用
這是用于遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別的公共數(shù)據(jù)庫(kù),不同于近場(chǎng)語(yǔ)音識(shí)別數(shù)據(jù)庫(kù),遠(yuǎn)場(chǎng)語(yǔ)音數(shù)據(jù)的采集不僅錄音環(huán)境更為復(fù)雜,同時(shí)還跟采集語(yǔ)音的硬件相關(guān)。所以錄制遠(yuǎn)場(chǎng)語(yǔ)音數(shù)據(jù)的成本相對(duì)較高。比較有名的遠(yuǎn)場(chǎng)語(yǔ)音數(shù)據(jù)庫(kù)包括AMI數(shù)據(jù),這個(gè)數(shù)據(jù)庫(kù)是在會(huì)議室環(huán)境下錄制的,混響時(shí)間較長(zhǎng);Chime數(shù)據(jù)庫(kù),在噪聲環(huán)境下錄制的數(shù)據(jù)庫(kù),其中Chime1和Chime2是單通道采集的,Chime-3和Chime-4是多通道采集的。
Chime-4比賽中包括了三種場(chǎng)景:?jiǎn)瓮ǖ?、雙通道和六通道。前端基線方法是改進(jìn)的延時(shí)求和;后端聲學(xué)模型是7層的DNN,得到的聲學(xué)模型需要再進(jìn)行sMBR區(qū)分性訓(xùn)練;語(yǔ)言模型采用3元或5元的語(yǔ)言模型;語(yǔ)料內(nèi)容來(lái)自WSJ0數(shù)據(jù)庫(kù)。
以下是對(duì)Chime-3和Chime-4比賽中的有效方法進(jìn)行的梳理。
首先看一下前端部分,有效的估計(jì)噪聲協(xié)方差矩陣將有助于提高算法性能。為了有效的估計(jì)噪聲協(xié)方差矩陣,需要對(duì)各個(gè)通道的各個(gè)時(shí)頻單元進(jìn)行屏蔽值估計(jì),可以采用深度學(xué)習(xí)等方法進(jìn)行估計(jì),在此基礎(chǔ)上計(jì)算噪聲協(xié)方差矩陣;使用最多的波束形成方法包括:最小方差響應(yīng)失真波束形成、最大信噪比波束形成、廣義旁瓣濾波波束形成、多通道維納濾波波束形成等。自適應(yīng)波束形成方法要優(yōu)于固定波束形成方法。
接下來(lái)介紹后端有效方法,在數(shù)據(jù)選擇上充分利用各個(gè)通道數(shù)據(jù);比如單通道語(yǔ)音增強(qiáng)任務(wù),將六個(gè)通道采集的數(shù)據(jù)都作為訓(xùn)練數(shù)據(jù);前端算法和后端算法的匹配非常重要,具體來(lái)說(shuō),訓(xùn)練聲學(xué)模型時(shí),如果是將前端算法處理后的數(shù)據(jù)作為后端聲學(xué)模型的訓(xùn)練數(shù)據(jù),則對(duì)于測(cè)試集,需要先通過(guò)前端算法進(jìn)行增強(qiáng)處理,然后在此基礎(chǔ)上通過(guò)后端模型識(shí)別;此外前端算法跟麥克風(fēng)陣列的適配也是非常重要的。當(dāng)前主流的聲學(xué)模型包括了BLSTM和深層的CNN;對(duì)不同的聲學(xué)模型進(jìn)行融合也有助于提高識(shí)別率,比如將BLSTM和深層CNN的輸出層進(jìn)行融合。對(duì)于語(yǔ)言模型LSTM優(yōu)于RNN,RNN優(yōu)于n-gram,對(duì)于工業(yè)領(lǐng)域的上線產(chǎn)品更多的是實(shí)用n-gram模型。
當(dāng)前這一領(lǐng)域仍然面臨的挑戰(zhàn)和需要解決的痛點(diǎn)包括:
1、多說(shuō)話人分離的雞尾酒問(wèn)題,如何改進(jìn)盲分離算法突破雞尾酒問(wèn)題;
2、說(shuō)話人移動(dòng)時(shí),如何保證遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別性能;
3、面對(duì)不同的麥克風(fēng)陣列結(jié)構(gòu),如何提高語(yǔ)音前端算法的泛化性能;
4、面對(duì)更加復(fù)雜的非平穩(wěn)噪聲和強(qiáng)混響如何保證算法魯棒性;
5、針對(duì)更隨意的口語(yǔ),尤其是窄帶語(yǔ)音,如何提高語(yǔ)音識(shí)別的性能;
6、遠(yuǎn)場(chǎng)語(yǔ)音數(shù)據(jù)庫(kù)不容易采集,如何通過(guò)聲場(chǎng)環(huán)境模擬方法擴(kuò)充數(shù)據(jù)庫(kù)。
上述問(wèn)題的解決將有助于提高遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別算法的性能。
(本文由極限元智能科技語(yǔ)音算法專家、中科院-極限元“智能交互聯(lián)合實(shí)驗(yàn)室”核心技術(shù)人員、中科院自動(dòng)化所博士劉斌整理分享)
推薦閱讀:
特別推薦
- 利用自動(dòng)化技術(shù)賦能中國(guó)基礎(chǔ)設(shè)施現(xiàn)代化
- 三極管電路輸入電壓阻抗
- 晶振怎么用,你真的知道嗎?
- 康佳特推出搭載AMD 銳龍嵌入式 8000系列的COM Express緊湊型模塊
- 村田推出3225尺寸車載PoC電感器LQW32FT_8H系列
- 思特威推出超星光級(jí)系列4MP圖像傳感器SC485SL
- HOLTEK新推出HT32F59045脈搏血氧儀MCU
技術(shù)文章更多>>
- 貿(mào)澤推出針對(duì)基礎(chǔ)設(shè)施和智慧城市的工程技術(shù)資源中心
- “扒開(kāi)”超級(jí)電容的“外衣”,看看超級(jí)電容“超級(jí)”在哪兒
- DigiKey 誠(chéng)邀各位參會(huì)者蒞臨SPS 2024?展會(huì)參觀交流,體驗(yàn)最新自動(dòng)化產(chǎn)品
- 提前圍觀第104屆中國(guó)電子展高端元器件展區(qū)
- 高性能碳化硅隔離柵極驅(qū)動(dòng)器如何選型,一文告訴您
技術(shù)白皮書(shū)下載更多>>
- 車規(guī)與基于V2X的車輛協(xié)同主動(dòng)避撞技術(shù)展望
- 數(shù)字隔離助力新能源汽車安全隔離的新挑戰(zhàn)
- 汽車模塊拋負(fù)載的解決方案
- 車用連接器的安全創(chuàng)新應(yīng)用
- Melexis Actuators Business Unit
- Position / Current Sensors - Triaxis Hall
熱門(mén)搜索
濾波電感
濾波器
路由器設(shè)置
鋁電解電容
鋁殼電阻
邏輯IC
馬達(dá)控制
麥克風(fēng)
脈沖變壓器
鉚接設(shè)備
夢(mèng)想電子
模擬鎖相環(huán)
耐壓測(cè)試儀
逆變器
逆導(dǎo)可控硅
鎳鎘電池
鎳氫電池
紐扣電池
歐勝
耦合技術(shù)
排電阻
排母連接器
排針連接器
片狀電感
偏光片
偏轉(zhuǎn)線圈
頻率測(cè)量?jī)x
頻率器件
頻譜測(cè)試儀
平板電腦