Mozilla成為最大公共轉錄語音高達18種語音

2021-09-11 21:25:09 字數 1315 閱讀 2774

mozilla公開現今最大的多語言語音資料集,其中收集了18種語言的語音,包括英語、法語、德語和正體中文,另外還有威爾斯語和卡比爾語等,新資料集收集了來自42,000人的聲音,組成1,400小時的語音片段。在2023年mozilla啟動了common voice群眾外包計畫,其目的是要收集多元語言的聲音資料集,現已經成為全世界最大的人類語音資料庫。雖然網路大廠、蘋果及亞馬遜等都打造了自己的語音識別服務,但mozilla認為,由大廠控制的語音識別生態圈,可能阻擋其他新進入者,而且大廠通常只注重主流語言,因此mozilla希望透過向群眾募集語音,以cc 0授權供給其他想要進行語音控制研究的學術單位或是新創公司使用。common voice在2023年6月開始支援多語言,收集包括正體中文語音等22種語言。

common voice資料集不僅在數量上讓其他語音資料集望塵莫及,而且語音**遍及全球,讓語音多樣性更是獨一無二的豐富。這些貢獻者可以選擇提供年齡、性別和口音等多元資料,以便提供更多的語音片段卷標給訓練語音引擎使用。mozilla提到,通常資料集都需要手動調整多樣性以及男女人數比例,不然就會像ted talks的tedlium語料庫,因為男性演講人是女性的3倍,導致資料集的多樣性受到影響。common voice在2023年啟動多語言支援後,現在已經收集到了22種語言的語音,最新的包括荷蘭語、世界語,波斯語,巴斯克語和西班牙語。最近mozilla還與deutsche gesellschaft für internationale zusammenarbeit(giz)合作,在盧安達首都基加利的舉辦黑客松,為當地建立了語音資料庫,幫助盧安達開源語音技術開發。而mozilla啟動common voice一部分的原因,也是要供給自家的deepspeech專案使用,開發語音轉文字和文字轉語音引擎以及訓練模型使用。目前為止,deepspeech已經可以用人類的精準度,實時將語音轉換成文字,可為串流語音進行實時轉換,在演講、**交談、電視節目、廣播節目和其他網路直播節目都可以應用。

deepspeech現在已經被使用在多個mozilla專案中,包括開源語音助理mycroft、個人助理leon以及用於私人組織轉錄**訊息的**交換系統fusionpbx。mozilla提到,未來deepspeech還會上到較小的平台裝置,像是智慧型手機或是車載系統。mozilla根據社群的回饋進行了可用性研究,以持續改善common voice**,並設法讓貢獻過程更加有趣,以鼓勵更多的人持續貢獻他們的聲音,因此貢獻者可以在錄製和驗證的過程中,看到每種語言的進度,並改善了移動到剪輯片段的提示。貢獻介面增加了審查、重新錄製以及跳過剪輯等新功能,方便貢獻者操作語音錄製,另外,現在也可以建立儲存配置檔案,跨多語言追蹤貢獻者自己的進度以及指標。

最大公共子串行,最大公共子串,最大回文子串

1 兩個字串中最長公共子串行 該問題是動態規劃的經典問題,找出的公共序列不一定是連續的,參考資料很多,這裡就貼出公式和 做個簡單的筆記。設序列a,b的長度分別為n和m,l i,j 為a i b j 的最長公共子串行長度,有遞推公式 時間複雜度為o mn 如下 define n 50 intlcs c...

最大公共子串

problem description 從乙個給定的串中刪去 不一定連續地刪去 0個或0個以上的字元,剩下地字元按原來順序組成的串。例如 a xb aaa bbb xabb xaaabbb 都是串 xaaabbb 的子串。例子中的串不包含引號。程式設計求n個非空串的最長公共子串的長度。限制 2 n ...

最大公共子串

最大公共子串 最大公共子串長度問題就是 求兩個串的所有子串中能夠匹配上的最大長度是多少。比如 abcdkkk 和 baabcdadabc 可以找到的最長的公共子串是 abcd 所以最大公共子串長度為4。下面的程式是採用矩陣法進行求解的,這對串的規模不大的情況還是比較有效的解法。請分析該解法的思路,並...