• 視聽(tīng)號(hào)

  • 我在現(xiàn)場(chǎng)

  • 微視頻

  • 視聽(tīng)E刊

  • 積分商城

  • 登陸/注冊(cè)
  • 首頁(yè)
  • 資訊
  • 產(chǎn)品
  • 企業(yè)
  • 訪談
  • 會(huì)議
  • 展會(huì)
  • 招標(biāo)
  • 案例
  • 人才
  • 技術(shù)
  • 商情
  • 專題
  • 論壇
  • 視聽(tīng)●時(shí)尚
  • 耳機(jī)
  •  
  • 直播
  •  
  • 智能音響
  • VR眼鏡
  •  
  •  
  • 投影機(jī)器人
  • 藍(lán)牙音箱
  •  
  • 微投
  •  
  • 播放器
  • 視聽(tīng)●發(fā)燒
    視聽(tīng)●家庭
    視聽(tīng)●商用
    視聽(tīng)●工程
    視聽(tīng)●集成
    中國(guó)視聽(tīng)網(wǎng)(www.jusdicere.com) > 行業(yè)資訊 > 視聽(tīng)信息(專業(yè)音響) > 為什么需要麥克風(fēng)陣列?
    為什么需要麥克風(fēng)陣列?
    更新:2022-6-16 9:58:18 稿件:蘭格電子 調(diào)整大小:【

    前幾年,語(yǔ)音交互應(yīng)用最為普遍的就是以Siri為代表的智能手機(jī),這個(gè)場(chǎng)景一般都是采用單麥克風(fēng)系統(tǒng)。

    單麥克風(fēng)系統(tǒng)可以在低噪聲、無(wú)混響、距離聲源很近的情況下獲得符合語(yǔ)音識(shí)別需求的聲音信號(hào)。但是,若聲源距離麥克風(fēng)距離較遠(yuǎn),并且真實(shí)環(huán)境存在大量的噪聲、多徑反射和混響,導(dǎo)致拾取信號(hào)的質(zhì)量下降,這會(huì)嚴(yán)重影響語(yǔ)音識(shí)別率。而且,單麥克風(fēng)接收的信號(hào),是由多個(gè)聲源和環(huán)境噪聲疊加的,很難實(shí)現(xiàn)各個(gè)聲源的分離。這樣就無(wú)法實(shí)現(xiàn)聲源定位和分離,這很重要,因?yàn)檫有一類聲音的疊加并非噪聲,但是在語(yǔ)音識(shí)別中也要抑制,就是人聲的干擾,語(yǔ)音識(shí)別顯然不能同時(shí)識(shí)別兩個(gè)以上的聲音。

    為什么需要麥克風(fēng)陣列?

    消費(fèi)級(jí)麥克風(fēng)陣列的興起得益于語(yǔ)音交互的市場(chǎng)火熱,主要解決遠(yuǎn)距離語(yǔ)音識(shí)別的問(wèn)題,以保證真實(shí)場(chǎng)景下的語(yǔ)音識(shí)別率。這涉及了語(yǔ)音交互用戶場(chǎng)景的變化,當(dāng)用戶從手機(jī)切換到類似Echo智能音箱或者機(jī)器人的時(shí)候,實(shí)際上麥克風(fēng)面臨的環(huán)境就完全變了,這就如同兩個(gè)人竊竊私語(yǔ)和大聲嘶喊的區(qū)別。

    麥克風(fēng)陣列還僅是物理入口,只是完成了物理世界的聲音信號(hào)處理,得到了語(yǔ)音識(shí)別想要的聲音,但是語(yǔ)音識(shí)別率卻是在云端測(cè)試得到的結(jié)果,因此這兩個(gè)系統(tǒng)必須匹配在一起才能得到最好的效果。

    麥克風(fēng)陣列的關(guān)鍵技術(shù)

    消費(fèi)級(jí)的麥克風(fēng)陣列主要面臨環(huán)境噪聲、房間混響、人聲疊加、模型噪聲、陣列結(jié)構(gòu)等問(wèn)題,若使用到語(yǔ)音識(shí)別場(chǎng)景,還要考慮針對(duì)語(yǔ)音識(shí)別的優(yōu)化和匹配等問(wèn)題。為了解決上述問(wèn)題,特別是在消費(fèi)領(lǐng)域的垂直場(chǎng)景應(yīng)用環(huán)境中,關(guān)鍵技術(shù)就顯得尤為重要。

    噪聲抑制

    語(yǔ)音識(shí)別倒不需要完全去除噪聲,相對(duì)來(lái)說(shuō)通話系統(tǒng)中需要的技術(shù)則是噪聲去除。這里說(shuō)的噪聲一般指環(huán)境噪聲,比如空調(diào)噪聲,這類噪聲通常不具有空間指向性,能量也不是特別大,不會(huì)掩蓋正常的語(yǔ)音,只是影響了語(yǔ)音的清晰度和可懂度。這種方法不適合強(qiáng)噪聲環(huán)境下的處理,但是應(yīng)付日常場(chǎng)景的語(yǔ)音交互足夠了。

    混響消除

    混響在語(yǔ)音識(shí)別中是個(gè)蠻討厭的因素,混響去除的效果很大程度影響了語(yǔ)音識(shí)別的效果。我們知道,當(dāng)聲源停止發(fā)聲后,聲波在房間內(nèi)要經(jīng)過(guò)多次反射和吸收,似乎若干個(gè)聲波混合持續(xù)一段時(shí)間,這種現(xiàn)象叫做混響。混響會(huì)嚴(yán)重影響語(yǔ)音信號(hào)處理,比如互相關(guān)函數(shù)或者波束主瓣,降低測(cè)向精度。

    聲源測(cè)向

    這里沒(méi)有用聲源定位,測(cè)向和定位是不太一樣的,而消費(fèi)級(jí)麥克風(fēng)陣列做到測(cè)向就可以了,沒(méi)必要在這方面投入太多成本。聲源測(cè)向的主要作用就是偵測(cè)到與之對(duì)話人類的聲音以便后續(xù)的波束形成。聲源測(cè)向可以基于能量方法,也可以基于譜估計(jì),陣列也常用TDOA技術(shù)。聲源測(cè)向一般在語(yǔ)音喚醒階段實(shí)現(xiàn),VAD技術(shù)其實(shí)就可以包含到這個(gè)范疇,也是未來(lái)功耗降低的關(guān)鍵研究?jī)?nèi)容。

    波束形成

    波束形成是通用的信號(hào)處理方法,這里是指將一定幾何結(jié)構(gòu)排列的麥克風(fēng)陣列的各麥克風(fēng)輸出信號(hào)經(jīng)過(guò)處理(例如加權(quán)、時(shí)延、求和等)形成空間指向性的方法。波束形成主要是抑制主瓣以外的聲音干擾,這里也包括人聲,比如幾個(gè)人圍繞Echo談話的時(shí)候,Echo只會(huì)識(shí)別其中一個(gè)人的聲音。

    陣列增益

    這個(gè)比較容易理解,主要是解決拾音距離的問(wèn)題,若信號(hào)較小,語(yǔ)音識(shí)別同樣不能保證,通過(guò)陣列處理可以適當(dāng)加大語(yǔ)音信號(hào)的能量。

    模型匹配

    這個(gè)主要是和語(yǔ)音識(shí)別以及語(yǔ)義理解進(jìn)行匹配,語(yǔ)音交互是一個(gè)完整的信號(hào)鏈,從麥克風(fēng)陣列開(kāi)始的語(yǔ)音流不可能割裂的存在,必然需要模型匹配在一起。實(shí)際上,效果較好的語(yǔ)音交互專用麥克風(fēng)陣列,通常是兩套算法,一套內(nèi)嵌于硬件實(shí)時(shí)處理,另外一套服務(wù)于云端匹配語(yǔ)音處理。

     網(wǎng)友評(píng)論
     編輯推薦
    • 2021 SIAV上海國(guó)際高級(jí)HiFi演示會(huì)展會(huì)_聯(lián)合HiFi專題
    • 2019年視聽(tīng)行業(yè)大型活動(dòng)之走進(jìn)企業(yè)(西安)
    • 2019年視聽(tīng)行業(yè)大型活動(dòng)之走進(jìn)企業(yè)(河南)
    • 2019視聽(tīng)行業(yè)萬(wàn)里行系列活動(dòng)——走進(jìn)河南
    • 懂得分享,所以精彩丨京秀·2021視聽(tīng)行業(yè)高峰論壇圓滿舉行
    • 破局創(chuàng)新,共襄盛舉丨2021視聽(tīng)行業(yè)高峰論壇蓄勢(shì)待發(fā)
    • 2021視聽(tīng)行業(yè)高峰論壇暨萬(wàn)里行全國(guó)巡展武漢站順利召開(kāi)
    • 全國(guó)首場(chǎng)!2021京東方晶芯科技有限公司合作伙伴大會(huì)亮相魔都