在亞馬遜Echo取得成功,谷歌宣布推出語(yǔ)音家居設(shè)備Google Home,最早引爆消費(fèi)領(lǐng)域語(yǔ)音識(shí)別應(yīng)用的蘋(píng)果公司也傳出將開(kāi)源Siri給第三方應(yīng)用程序等這一系列事件之后,市場(chǎng)對(duì)智能語(yǔ)音技術(shù)的關(guān)注也達(dá)到一個(gè)新的熱度。

據(jù)CIRP上月發(fā)布的一份報(bào)告顯示,亞馬遜語(yǔ)音智能音響Echo的銷(xiāo)售量已經(jīng)突破300萬(wàn)臺(tái)。這款被認(rèn)為是亞馬遜試水之作的產(chǎn)品,獲得了比預(yù)期要好的成績(jī)。Echo的成功很大程度上是源于其出眾的語(yǔ)音識(shí)別率,遠(yuǎn)場(chǎng)識(shí)音以及語(yǔ)音喚醒功能。2160530-AI-2亞馬遜在Echo頂部配置了7個(gè)微機(jī)電系統(tǒng)(MEMS)麥克風(fēng)構(gòu)成陣列,采用波束成型(Beam-forming)等技術(shù)進(jìn)行降噪語(yǔ)音處理。從而實(shí)現(xiàn)遠(yuǎn)距離識(shí)音,整個(gè)過(guò)程不需要雙手操作;且在有風(fēng)噪、車(chē)聲、小孩哭鬧等較為嘈雜的環(huán)境下,也不影響正常使用。MEMS麥克風(fēng)技術(shù)方案的提升與智能化創(chuàng)新,為新一代的智能設(shè)備提供了可靠的語(yǔ)音交互體驗(yàn)。本文將闡述,智能語(yǔ)音應(yīng)用興起大背景下,MEMS麥克風(fēng)的發(fā)展趨勢(shì),以及MEMS麥克風(fēng)元祖樓氏電子在最近的一次研討會(huì)活動(dòng)上展示的最新智能語(yǔ)音解決方案。

設(shè)備都在智能化,麥克風(fēng)也一樣

前面提到了亞馬遜Echo的一大殺手锏,即語(yǔ)音喚醒。這就需要設(shè)備在語(yǔ)音交互上是一個(gè)一直在線(xiàn)的狀態(tài),能夠隨時(shí)傾聽(tīng)用戶(hù)聲音,等待關(guān)鍵詞口令的出現(xiàn)來(lái)喚醒設(shè)備。

于是問(wèn)題來(lái)了。倘若設(shè)備一直在收音,無(wú)疑會(huì)非常耗電,這對(duì)于移動(dòng)設(shè)備來(lái)說(shuō)是非常不適合的。因此,我們需要把麥克風(fēng)變得更加智能。樓氏電子智能語(yǔ)音硬件負(fù)責(zé)人介紹:“我們將聲學(xué)活動(dòng)檢測(cè)(Acoustic Activity Detector, AAD)單元放到了麥克風(fēng)里面,實(shí)現(xiàn)一個(gè)自適應(yīng)的實(shí)時(shí)監(jiān)聽(tīng)模式。這種方式能夠使整個(gè)系統(tǒng)節(jié)能70%。”例如,在一款CSR平臺(tái)的藍(lán)牙耳機(jī)上,使用普通數(shù)字麥克風(fēng)時(shí)整個(gè)系統(tǒng)的待機(jī)電流至少為5 mA,而用智能麥克風(fēng)時(shí)的待機(jī)電流約為0.6 mA左右,待機(jī)時(shí)間從42個(gè)小時(shí)提升到125個(gè)小時(shí)。2160530-AI-3我們熟知的蘋(píng)果iPhone的Siri,之前只支持充電狀態(tài)下的鎖屏語(yǔ)音喚醒,直到推出iPhone 6s,Siri才支持低功耗的鎖屏語(yǔ)音喚醒。(還記得,去年蘋(píng)果發(fā)布會(huì)邀請(qǐng)函上那句 “Hey Siri”嗎?)

VQ3.0:讓設(shè)備聽(tīng)懂“hey Siri.”or“百度一下”...

智能麥克風(fēng)實(shí)現(xiàn)了讓設(shè)備一直處于低能耗的監(jiān)聽(tīng)狀態(tài)。然而我們生活在充滿(mǎn)各種嘈雜聲音的環(huán)境下,汽車(chē)的噪音、地鐵施工的噪音、街坊鄰居的嬉笑聲。所以設(shè)備需要了解哪些是噪音,哪些是有用的聲音。去年樓氏并購(gòu)了語(yǔ)音解決方案供應(yīng)商Audience后,為樓氏帶來(lái)幾項(xiàng)重要的技術(shù),其中就包括通過(guò)深度神經(jīng)網(wǎng)絡(luò)(DNN)的基于機(jī)器學(xué)習(xí)的語(yǔ)音識(shí)別。

機(jī)器學(xué)習(xí)是指提供大量不同的聲音樣本給人工智能DNN系統(tǒng)訓(xùn)練,并能夠?qū)⑦@些資料做一些處理,加上噪音、調(diào)整頻率和速度,產(chǎn)生更多的訓(xùn)練資料,從而可以將識(shí)別率提高到非常準(zhǔn)確的程度。由于Audience的這種識(shí)別只是口令式的觸發(fā)啟動(dòng),并不涉及到復(fù)雜的信息交流,所以也就不存在語(yǔ)種差異等方面的障礙,只需要將口令的音認(rèn)準(zhǔn),即完成任務(wù)。2160530-AI-4據(jù)樓氏智能語(yǔ)音軟件產(chǎn)品管理副總裁姜正耀透露,目前Voice Wake VQ 3.0語(yǔ)音喚醒方案已經(jīng)放在聯(lián)發(fā)科X20里面,并且和海思、高通等均有合作。

樓氏日前推出了基于ASIC的第二代智能麥克風(fēng)Griffin IA210,內(nèi)置聲學(xué)檢測(cè)單元AAD,采用Burst模式解決延時(shí)問(wèn)題,從而能夠及時(shí)響應(yīng)。所搭配的低功耗語(yǔ)音DSP處理器eS814,放入了樓氏最新的語(yǔ)音喚醒軟件方案VQ3.0。以軟硬結(jié)合的完整方案實(shí)現(xiàn)高性能的語(yǔ)音處理。2160530-AI-5

實(shí)現(xiàn)遠(yuǎn)場(chǎng)識(shí)音、更好的壓噪,多麥克風(fēng)方案是必須

實(shí)際上,無(wú)論是前面說(shuō)的機(jī)器學(xué)習(xí),還是波束成型等壓噪技術(shù),都需要多麥克風(fēng)方案來(lái)解決。我們看到,目前的智能手機(jī)一般都采用了3 ~ 4顆的MEMS麥克風(fēng)。例如,iPhone 5s采用了3顆MEMS麥克風(fēng),iPhone 6s 系列則用到了4顆。而包括Echo智能音響在內(nèi)的智能家居設(shè)備,要配備6 ~ 7顆才能夠滿(mǎn)足日常家居需求。樓氏MEMS麥克風(fēng)業(yè)務(wù)副總裁Greg Doll表示,通過(guò)嵌入更多數(shù)量的MEMS麥克風(fēng),設(shè)備可以獲得更好音質(zhì)與用戶(hù)體驗(yàn)。2160530-AI-6樓氏在研討會(huì)活動(dòng)上還演示了5米遠(yuǎn)距離識(shí)音IoT方案,包括集成了語(yǔ)音算法的DSP以及3顆高性能麥克風(fēng)陣列,從現(xiàn)場(chǎng)效果來(lái)看,識(shí)別率非常高。遠(yuǎn)場(chǎng)識(shí)音效果的好壞實(shí)際上是由麥克風(fēng)壓噪能力決定的。

Greg Doll對(duì)比展示了,在吵鬧環(huán)境下,使用同樣芯片和同樣算法的兩臺(tái)智能手機(jī),采用3顆MEMS麥克風(fēng)的音質(zhì)要明顯優(yōu)于采用2顆MEMS麥克風(fēng)的。2160530-AI-7對(duì)于麥克風(fēng)的性能,除了眾所周知的SNR(信噪比)外,AOP(聲學(xué)過(guò)載點(diǎn))也是麥克風(fēng)重要的質(zhì)量指標(biāo)。高SNR能夠讓設(shè)備更好的遠(yuǎn)距離收音;而AOP是評(píng)估麥克風(fēng)在高聲壓水平下的性能指標(biāo),比如,一些公司慶典上的錄音往往有很多破音,就是由于MEMS麥克風(fēng)AOP不夠高的緣故。

這對(duì)于使用場(chǎng)景的越來(lái)越多樣化的智能語(yǔ)音設(shè)備來(lái)說(shuō)非常重要。有報(bào)告顯示,64dB以上的高信噪比MEMS麥克風(fēng)的市場(chǎng)占有率已經(jīng)達(dá)到50%以上;而對(duì)AOP的要求,很多廠商也從之前的120dB上升到130dB以上的基礎(chǔ)水平。

語(yǔ)音助手功能推動(dòng),MEMS麥克風(fēng)市場(chǎng)持續(xù)成長(zhǎng)

IHS最新報(bào)告指出,蘋(píng)果 iPhone將麥克風(fēng)數(shù)量增加至4顆,預(yù)期會(huì)帶動(dòng)其他廠商跟進(jìn);預(yù)計(jì)2015 ~ 2019年全球MEMS麥克風(fēng)市場(chǎng)將出現(xiàn)13%幅度成長(zhǎng),銷(xiāo)售量將達(dá)到60億顆。分析師指出,開(kāi)始增加麥克風(fēng)數(shù)量,主要是受到免持通話(huà)與Siri、Cortana等語(yǔ)音助手功能所帶動(dòng)。

目前,智能手機(jī)市場(chǎng)仍舊是MEMS麥克風(fēng)廠商主攻的重地,當(dāng)然,一些當(dāng)下大熱的概念也值得注意。比如,文章前面提到的內(nèi)置7顆麥克風(fēng)的亞馬遜智能音響Echo,按透露出來(lái)的300萬(wàn)銷(xiāo)量算,其MEMS麥克風(fēng)的采購(gòu)量也能達(dá)到2100萬(wàn)顆。另外還有可穿戴、IoT設(shè)備以及MEMS麥克風(fēng)還未涉及的VR領(lǐng)域。

MEMS麥克風(fēng)龍頭的挑戰(zhàn)與應(yīng)對(duì)

樓氏依舊是目前全球MEMS麥克風(fēng)市場(chǎng)的最大市占者。據(jù)樓氏透露,其2015年全年的出貨量接近16億顆。但I(xiàn)HS分析指出,由于Goertek、意法半導(dǎo)體與瑞聲科技都在奮起直追,成為蘋(píng)果與其他公司供應(yīng)商,樓氏的領(lǐng)先幅度正在縮小。

近幾年,樓氏不斷加大在DSP及算法等智能語(yǔ)音方面的投入,包括去年并購(gòu)了Audience,開(kāi)始從一家的聲學(xué)元器件供應(yīng)商向音頻解決方案供應(yīng)商轉(zhuǎn)型。

日前,樓氏電子傳出將移動(dòng)消費(fèi)電子揚(yáng)聲器、受話(huà)器產(chǎn)品線(xiàn)出售給正心谷創(chuàng)新資本的消息。筆者就此事聯(lián)系樓氏方面了解到,樓氏此舉是為了專(zhuān)注于MEMs麥克風(fēng)、智能音頻等核心優(yōu)勢(shì)業(yè)務(wù)領(lǐng)域,加強(qiáng)在高級(jí)音頻解決方案領(lǐng)域的市場(chǎng)領(lǐng)導(dǎo)地位。另外,平衡電樞驅(qū)動(dòng)單元揚(yáng)聲器(俗稱(chēng)動(dòng)鐵)是隸屬于特種聲學(xué)產(chǎn)品部門(mén)的另一條產(chǎn)品線(xiàn),樓氏將繼續(xù)這些產(chǎn)品的生產(chǎn)。