谷歌開源框架 FUSS,讓聲音分離不再成為難題

2021-10-05 12:34:25 字數 1400 閱讀 7818

作者 | google 開源部落格

譯者 | 楊志昂

策劃 | 李冬梅

近日,谷歌研究團隊在其開源部落格上發布了乙個免費的通用聲音分離資料集,即 fuss。這個資料集將被當作 ieee 聲音事件檢測和分離任務網路挑戰競賽的基準,並有助於將來自其他機器學習領域的新技術快速迭代和應用到對聲音分離的科研上。

近日,我們很高興地宣布發布 fuss——即免費的通用聲音分離資料集(free universal sound separation)。

在這個領域,訓練模型乙個需要克服的主要障礙是,即使有高質量的混合音訊錄音,用基準真相(ground truth)來對這些錄音進行資料標註也並不是一件容易的事情。高質量的**是克服這一限制的一種解決方法。為了獲得良好的**效果,需要一組多樣化的各式各樣的聲音、乙個逼真的房間模擬器,以及將這些元素混合在一起的**,以求實現逼真的、多源的、多種型別的音訊,並將之用基準真相進行標註。使用新發布的 fuss 資料集,我們就能實現擁有這三個特徵的音訊**。

fuss 依靠的是來自 freesound.org **的具有知識共享(creatuve cinnibs)許可的音訊剪輯。我們團隊根據許可型別將這些聲音過濾搜尋出來,然後使用 fsd50k 的預發布版本,進一步過濾掉那些混合在一起時無法被分離的聲音。經過這些過濾之後,有大約 23 個小時的音訊,包括 12377 種聲音,可以用於混合聲音的機器學習。在我們的研究中,其中有 7237 種聲音用於訓練;2883 種用於驗證;2257 種用於評估。使用這些音訊剪輯,我們建立了 2 萬個訓練混合音訊、1000 個驗證混合音訊和 1000 個評估混合音訊。

在開源機器學習平台 tensorflow 上,我們開發出了自己的房間模擬器。在給定聲源位置和麥克風位置的條件下,該房間模擬器能夠生成乙個箱形房間的脈衝響應,且該箱型房間帶有頻率相關的聲音反射特性。作為 fuss 資料集發布的一部分,我們為每個音訊樣本都提供了預先計算出來的房間脈衝響應以及混合**,因此音訊方面的研究社群可以直接用這個資料集來模擬新的音訊,而無需去運**間模擬器所要求的海量計算。接下來,我們還將繼續的工作可能會包括發布房間模擬器的**,和擴充套件房間模擬器功能以處理更豐富的聲學特性,比如不同反射效能的材料、非規則的房間形狀等等。

最後,我們還發布了乙個基於掩碼的分離模型,該模型基於乙個改進的時域卷積網路(tdcn++)。在評估資料集上,該模型處理 2 ~ 4 個訊號源的混合音訊時,成功實現了 12.5 db 的尺度不變訊雜比改善(si-snri),同時重建了具有 37.6 db 絕對尺度不變訊雜比的單源混合音訊。

該資料集作為聲音事件檢測和分離任務的功能元件,還將用於 ieee 發起的 dcase 挑戰。我們發布的模型將被當作本次 ieee 網路競賽的基準,並作為標準檢查程式在未來實驗中對進展進行展示。

我們希望這個資料集將幫助大家清除新研究的障礙,尤其是有助於未來其他機器學習領域新技術的快速迭代和應對聲音分離科研上的挑戰上。

谷歌800多款開源字型

更重要的是,作為開發者,您可以通過 api,在您的網路應用中動態式地查詢有哪些字型可以使用,以及隨時調入各種字型資源,讓您的網頁和應用更加漂亮。class video iframe height 258.75 width 345 frameborder 0 allowfullscreen src s...

谷歌開源 Supersonic 查詢引擎

谷歌近日開源了其supersonic專案。據谷歌描述,supersonic是乙個超快速的 針對列儲存資料庫 column oriented dbms 的查詢引擎庫,使用c 編寫。supersonic提供了一組大量使用快取相關演算法 simd指令和向量化操作的轉換原語,並可以利用現代的超執行緒 cpu...

iphone 開源框架

掃瞄wifi資訊 條形碼掃瞄 tcp ip的通訊協議 voip sip three20 google gdata 720全景顯示panoramagl jabber client plblocks image processing json編碼解碼 base64編碼解碼 xml解析 安全儲存使用者密碼...