Facebook Pixel Facebook Pixel

過濾雜訊,Google運用AI來專注特定人聲

2018-04-30
數位時代/高敬原
過濾雜訊,Google運用AI來專注特定人聲
圖片來源 : Pixabay
【SmartM解讀】人類在吵雜的環境中,可藉由注意力的轉移來專注在欲聽取的聲音。近期Google藉由AI深度學習來過濾不必要的雜訊,未來欲將此技術普及運用在多種層面上,使閱聽人能更有效率地聽取資訊。
人類有一項特殊的能力,能夠在眾多吵雜的聲音中,辨識出我們熟悉、想聽的聲音,「過濾」掉其他雜訊,專注在說話的對象上,而機器要做到這樣的程度,在過去一直被認為是一件相對困難的事。
最近Google研究人員,利用深度學習、影像模型打造出一套系統,能夠辨識出畫面中說話人物的聲音,依照需求強化特定人士的聲音,消除其他人聲、環境音,這項功能將來可以應用在多人的電話、視訊會議中,或者在多人爭辯的政論節目中,幫助我們清楚聽見特定人士的觀點。

利用深度學習,分離不同聲音來源

「人們很擅長在吵雜的環境中,將注意力放在特定的人身上,心理上將其他人與背景聲音靜音。」Google軟體工程師Inbar Mosseri 、Oran Lang認為,這是人類一項先天的能力,可以將眾多聲音區分成各種音源,但過去許多研究都認為,這對電腦來說仍是一項重大挑戰。
根據最新一份叫「Looking to Listen at the Cocktail Party」研究,研究人員透過深度學習,同步分析影片中的影像與聲音,能單從說話者的臉部表情,就辨別出是誰在說話,觀眾只要點選畫面中特定人臉,就能聽見想聽的聲音來源。研究人員使用10萬支、總長度達2,000小時的單一講者影片,訓練系統辨識個別聲音,接著混入其他影片增加背景雜音,一步一步教懂AI辨別不同音軌,最後會產生一套模型。
完成訓練後,這套系統只要偵測到任何影片中有嘴巴在動,系統會去抓取該來源的音檔,並將其他雜音去除。而這套系統之所以厲害,是因為不僅可以去除環境中的雜音,更可以在多人大聲、激烈交雜談話的同時,還能將目標的聲音細緻地分析出來,即便過程中說話的人麥克風不小心遮住嘴型,這套系統依然可以不受干擾的執行。

聽清楚想聽的意見,政論節目將能改善閱聽品質

Google表示,目前仍在探索一切應用的可能,「我們相信這項軟體可以有許多應用,特別是在有許多人說話的吵雜環境,例如增強影片聲音辨識、視訊會議、改良助聽器。」
若這項軟體真的普及,將能改善許多生活中痛苦的經驗,Google可以將這套軟體導入自家Hangouts、Duo這類語音視訊軟體,多人會議時就能過濾背景雜音,增加理解效率,甚至也能改善傳統助聽器無法分離聲音的缺點,未來自動翻譯軟體也能因此受惠。
Google官方釋出了一段影片,畫面中兩位主播激烈的針對議題爭論,聲音重疊時幾乎難以聽清楚任何一方的意見,透過軟體強化左邊主播聲音後,就能清楚聽見單方意見。台灣今年是選舉年,各種議題的辯論將會大量出現,不論是電視政論節目、廣播、網路直播、Podcast,往後若能應用這套軟體,想必能幫助更多閱聽人舒服、有效率的,吸收各種不同的討論內容。
 
延伸閱讀
原文出處
【超過300本影音說書陪你成就更好的自己】讓大大學院與你共讀,幫助「沒時間讀書」、「讀書速度很慢」、「讀完就忘記」、「抓不到重點」的你,利用18分鐘領略閱讀的樂趣,吸收並帶走鮮明觀點,真正讓知識內涵融會於日常生活。立即點擊加入
大大讀書|全台最大線上影音說書
本網站內容未經允許,不得轉載。歡迎來信投稿、洽談文章授權。

關注職場最新趨勢,為知識學習創造最佳環境

大大學院「全台最大影音說書.知識學習平台」,致力於推廣終生學習、培養職場人士的閱讀習慣。

按讚、追蹤「大大學院」Facebook粉絲團,每天更新最新職場趨勢文章,帶你掌握關鍵資訊。

加入「大大學院|職場趨勢新觀點」,最新、最實用的職場課程都在這,學習資訊不漏接!請用手機點擊「加入Line好友」連結,或是掃描QR Code加入。

處理中