威健實業股份有限公司

Go List

[Infineon] 生成式人工智慧音訊快速發展：高信噪比 MEMS 麥克風功不可沒

2024-08-19

最新一代人工智慧或將開啟新一輪科技革命，全面提升各種人機互動體驗。

人工智慧日益融入人們的日常生活，在各個層面帶來深刻變化。基於人工智慧的文字和圖像生成工具可以創建出令人難以置信的內容。不僅如此，人工智慧的觸角已從視覺和文字媒介，伸向語音轉文字（STT）和自然語言處理（NLP）等音訊應用，展現出巨大潛力。然而，音訊應用品質大幅提升是否僅歸功於最新一代基於大語言模型的生成式人工智慧？還是說硬體依然功不可沒？就拿高信噪比（SNR）微機電系統（MEMS）麥克風來說，它為實現這種必將改變人們日常生活的新質人機互動做出了什麼貢獻？本文將探討這些問題並深入分析高信噪比 MEMS 麥克風在文字轉語音（TTS）和自然語言處理（NLP）等前緣音訊應用的發展中所扮演的關鍵角色。

人們每天戴耳機的時間越來越長。隨著越來越多的人選擇在咖啡館等公共場所辦公，為了靜享安寧或是參加會議，人們紛紛使用耳機來隔絕外界喧囂。閒暇時，人們也願意戴著耳機打遊戲、聽音樂或有聲書或與朋友交談。由於配戴時間越來越長，除舒適度之外，音訊品質也成為重要的選購標準。越來越多的人在選購耳機時對「高級音訊功能」感興趣，例如空間音訊、清晰語音通話和低延遲等。

圖 1：基於高信噪比 MEMS 麥克風的語音辨識準確率更高賦予智慧型手機內建語音助理更大優勢

語音辨識和語音生成是消費性電子產品和汽車的重要音訊功能。近年來，包括 Siri 和 Alexa 在內的語音助理一直在簡化操作並推出新的應用，例如透過語音命令控制智慧家庭設備。如今，從智慧型手機（圖 1）和耳機到智慧電視、智慧音箱、智慧家居設備、筆記型電腦和平板電腦，各式各樣的設備都配備了整合式語音助理。整合在設備中的語音助理（如智慧型手機、耳機、智慧電視和智慧音箱）依賴這些麥克風捕捉到的高品質音訊輸入。高信噪比（訊號與雜訊比）麥克風在實現卓越音訊品質方面起著關鍵作用；對於遠場應用，如智慧音箱，高信噪比麥克風可以更好地捕捉音訊；真無線耳機（TWS）中的主動降噪（ANC）和透傳模式等功能也受惠於高信噪比麥克風，提升了使用者體驗。汽車也廣泛使用語音助理來控制多種不同功能，以便駕駛者雙手不離開方向盤即可完成操作。

SAR 預測，到 2028 年，有整合語音助理的設備的市場總銷量將增至每年 30 億台，複合年增長率達 5%。 ¹

人工智慧在音訊領域的應用前景

另外目前的系統還不夠完美。口音、語病或簡單的背景噪音等仍然會導致語音辨識失敗。語音輸出聽起來也非常生硬，與真人發音有很大差別。

最新一代人工智慧或將開啟新一輪科技革命，全面提升各種人機互動體驗。生成式人工智慧音訊的優點不僅在於增強語音助理的功能，還在於它更能理解人類的意圖。例如，人工智慧生成語音與真人發音幾乎難以分辨，從而可以為視障群體提供更好的幫助。各種數位平台都可以利用人工智慧音訊來提升使用者體驗，娛樂產業或客戶支援領域也可以探索人工智慧音訊帶來的新的可能性。

生成式人工智慧音訊的一個重要應用是語音轉文字，即將說的話轉換成文字。使用人工智慧可以提高速度和準確率。語音轉文字（STT）結合文字轉語音（TTS），可在筆記型電腦或智慧型手機等消費性電子產品中實現多種應用，包括整合式語音助理以及自動轉錄會議。在會議中，基於人工智慧的應用可以總結出，以掌握討論的精神實質。在會議進行過程中，您可以查看不同人提出的觀點，以確保全面考慮每個人的意見。

自然語言處理（NLP）和生成富有表現力的語音

自然語言處理（NLP）是生成式人工智慧語音的基礎技術。它致力於理解口語的含義，而不考慮口音、口語化表達、發音含糊不清以及口語與書面語言之間的其他差異。自然語言處理還可以根據語速、語調和語氣，辨識出觀點和情緒。人可以發出各種各樣的聲音，因此，自然語言處理的聲音採集必須盡可能準確地捕捉到純淨的語音信號，同時將背景噪音、雜音和其他外部影響降至最低。換句話說，麥克風和訊號處理有助於顯著提高自然語言處理品質。

要實現出色的語音識別，必須用盡可能多的不同真人聲音對人工智慧進行訓練。只有這樣，它才能處理語音的微妙之處並理解口語文字。

適用於人工智慧音訊的 MEMS 麥克風

同自然語言處理的情況一樣，人工智慧音訊必須藉助的硬體才能高品質地完成任務。首先是將人類語音產生的聲波轉換成電訊號，轉換品質直接關係到對所捕捉訊號的理解。任何轉換損失或劣化都會降低語音轉文字的準確度。

麥克風是音訊鏈中的第一個環節，在人工智慧音訊設備必須選擇合適的麥克風。MEMS 麥克風可謂當仁不讓：它們不僅具備高性能和低功耗，而且外型小巧，可輕鬆整合到各式各樣的裝置中。

MEMS 麥克風主要由三個部分組成（圖 2）。首先是用作感測元件的微機電系統：膜片和背極板共同構成一個電容器，聲波使膜片振動，振動導致電容變化進而產生電訊號。第二個組成部分是專用積體電路（ASIC），其中包含向膜片施加電壓的電荷泵、放大器、穩定輸入電壓的穩壓器（LDO）和校準邏輯電路。第三個組成部分是封裝，它將這些元件集於一體，提供保護和屏蔽並形成後腔室。

圖 2：MEMS 麥克風框圖

要在有背景噪音、口音或講話人與麥克風之間的距離不理想等困難條件下，辨識出語音的細微差別，麥克風的信噪比是關鍵特性。麥克風的所有元件（MEMS、ASIC、封裝和入聲孔）都會產生自噪音。信噪比描述了麥克風固有的自噪聲相對於標準參考訊號的強度。訊號雜訊比越高，能提供更穩定、更清晰的語音和資料傳輸，減少雜訊幹擾，提升設備效能和穩定性。

XENSIV ™ MEMS 麥克風帶給人工智慧音訊的優勢

如上所述，人工智慧音訊設備需要採用高信噪比麥克風來實現準確的語音辨識。英飛凌已經成功研發了許多高性能 MEMS 麥克風²，包括具有革命性意義的密封雙膜（SDM）MEMS 麥克風技術。它使用兩個膜片和一個帶電定子來形成一個密封的低壓腔（圖3）和一個差分輸出訊號，這種架構可實現超高信噪比（高達 75 dB）和極低失真，並為麥克風提供防水防塵高防護（IP57）。

圖 3：SDM 技術使用兩個膜片和一個帶電定子來形成一個密封的低壓腔和一個差分輸出訊號從而實現超高信噪比和極低失真

英飛凌 XENSIV ™ IM73A135 正是應用了這個技術，信噪比達到 73 dB，處於業界領先地位特別適合人工智慧音訊等要求嚴格的應用。其 4 × 3 mm² 封裝允許將聲音捕捉單元小型化，以便輕鬆將人工智慧語音技術整合到各種設備中，包括筆記型電腦、會議電話以及智慧音箱和智慧型手機等。

XENSIV ™ MEMS 麥克風的另一個優點是低耗能。它們提供多種不同工作模式，透過節能來幫助除了性能領先助提高設備的功率效率。許多具有生成式人工智慧語音功能的設備都是電池供電的便攜式設備，低能耗對於延長電池續航性尤其重要。

得益於其尺寸小巧、經濟划算和低功耗，在一台設備中配置多個麥克風。這樣可以偵測並降低背景噪音，提高語音辨識準確率。也可以採用波束成形演算法，從背景噪音中分離出並拾取特定講話人的語音。

如今人們重視改善音訊品質，市場數據也反映出 MEMS 麥克風的優勢。高信噪比 MEMS 麥克風市場的成長速度明顯超過低信噪比麥克風市場。Omdia 預計，訊號雜訊比高於 64 dB 的 MEMS 麥克風在消費領域的複合年增長率將達到 8.7%，到 2027 年銷售量將接近 30 億個³。

英飛凌很早就預見這一趨勢，我們一直在研發適用於人工智慧音訊應用等的高性能 MEMS 麥克風。

除了性能領先的 73-dB 信噪比之外，具備更高信噪比、更低功耗的 MEMS 麥克風也即將相繼面市。

圖 4：XENSIV ™ MEMS 麥克風的主要價值指標如欲了解更多信息，點擊訪問

結語

在生成式人工智慧音訊領域，高信噪比 MEMS 麥克風扮演了至關重要的角色。隨著人工智慧推動語音轉文字（STT）等音訊應用不斷發展，MEMS 麥克風也透過捕捉細緻入微的語音數據，為提高語音辨識準確率發揮了積極作用，助力在消費電子產品和面向視障群體的無障礙功能等領域可實現更自然實用的人工智慧音訊。充分利用優質 MEMS 麥克風的這些優點，人工智慧音訊將在未來幾年開闢更多應用領域，包括語音克隆、語音情緒辨識等等。

英飛凌科技自主研發和生產 MEMS 麥克風的所有組件。英飛凌可以針對每種應用，確定 MEMS、ASIC 和封裝的最佳組合以實現最佳效能。這為改善用戶體驗和拓寬人工智慧音訊應用領域鋪平了道路。

掃描二維碼, 關注英飛淩官方微信尋找更多應用或產品資訊

更多資訊請參考：www.infineon.com

追蹤英飛凌動態：Twitter - Facebook - LinkedIn

更多威健資訊請參考：www.weikeng.com.tw

追蹤威健動態： Facebook - LinkedIn