anyRTC在音訊領域的探索

2021-10-17 14:10:36 字數 3084 閱讀 1415

anyrtc借鑑了webrtc的語音引擎,在此之上做了全方位修改:

經過長期的調研和使用者回訪,anyrtc整理了通訊場景下使用者遇到的痛點和技術難點,做了以下整理。

(1)無聲問題

(2)漏回聲

(3)聲音嘈雜

聲音嘈雜的問題,比如在移動場景,室外,或者是辦公室裡辦公,辦公室裡的敲鍵盤聲音、水杯喝水的聲音,戶外嘈雜環境,比如超市、機場,各種嘈雜的聲音會通過麥克風傳入通訊的通道中,導致通話聲音嘈雜,傳統的降噪演算法很難去處理這些複雜的雜訊。

(4)雙講聲音小或聽不到的問題

(5)音訊卡頓

(6)同地多裝置進入

在通訊的過程當中,還會出現同地多裝置的問題。在以前使用**的場景下,大家基本不會碰到這樣的問題,因為乙個房間就乙個**,不存在多個**、多個聲學裝置在同乙個地方入會的情形。現在隨著會議解決方案的普及,每個人電腦上面都能安裝乙個協同會議的客戶端,大家習慣性帶著電腦參加會議,分享螢幕和ppt內容。每個人都進入會議,把他的螢幕分享開啟,一下子會發現,在乙個頻道裡面出現了很多個終端,同樣多個聲學裝置在同乙個地方進入頻道,立刻帶來問題就是有回聲。

(7)專業的調聲臺的使用

在通訊的過程當中,還會出現使用者使用專業的調聲臺,連線輸入高音質伴奏,**有高音和重低音的場景,當這些**輸入到通訊裝置的時候,經過3a處理,會把聲音修剪,達不到現場聽的效果。

(8)**教學場景

anyrtc結合ai技術+領先的3a演算法+精準的裝置適配,從以下4個方面全方位的提公升使用者在音訊方面的體驗,確保使用者可以有「聲臨其境」的感覺。

(1)音訊超分

​根據低頻的資訊進行**生成,把高頻的分量很好的補償出來,讓原來聽起來比較沉悶,不夠豐富的語音變得更加明亮,聲音音質變得更加豐滿。

(2)美聲演算法

對音調、音色、動態、韻律、空間效果等進行調節,達到人聲的美化。這種方法不僅使用者接入門檻低、成本低,並且能保證實時互動的體驗。

(3)ai降噪

(4)領先的3a演算法

智慧型適應各類環境,全面消除回聲,並提供超一流的雙講表現;可在不損傷語音音質的情況下,有效消除各類噪音;可實現音訊的自動增益,即使在嘈雜環境下使用者也能體驗優異。超過了6000+的裝置適配。

(1)**教學

線上教育已經走進了千家萬戶,大家也逐漸接受和認可了這種教學模式,而線上**教學也有針對性的出現了。

(2)語音聊天室

​語音聊天室大多數針對使用者和陌生人之間的交流,通過聊天交流擴充自己的社交圈子,認識更多的朋友。

為互動體驗並增加趣味性,通常需要美化人聲或為人聲增添豐富的音效。很明顯,在語聊等場景中,使用者已經不在滿足於被聽見。被聽清、能互動,以及擁有高畫質的音質體驗才是他們所追求的。希望不僅能有最佳的音質,還想要讓自己的聲音變得更動聽、更有磁性!

anyrtc 會在使用者的使用場景上進行突破,結合ai技術去落實場景:

(1)ai變聲

​ai變聲集語音表徵學習技術、風格遷移技術之大成,不再是冰冷的、千篇一律的角色聲音。

使用者通過語音輸入聊天內容,語音編碼器自動將內容分為兩部分:一部分為聊天內容資料,ai對聊天內容資料進行聲紋特徵編碼,以提取使用者的音色;另外一部分為韻律資料,也就是使用者說話的節奏、流露的情感、包含的語氣,ai通過對音訊特徵的壓縮編碼及特徵抽取,學習使用者的說話風格。與此同時,使用者選擇乙個角色,ai自動啟用說話人編碼器,調出目標說話人的音色並進行替換,最終得到帶有角色音色的音訊。

ai變聲可以應用在語音連麥直播、語聊房、開黑語音、k歌房、fm電台等場景。使用者可以自由選擇自己喜歡的聲音進行變換,極大的提高使用者的體驗感,增加使用者的留存率。

(2)ai音訊超分

音訊超分從以下三個方面入手:

頻寬擴充套件的功能是把音訊號被移除掉的高頻區域的資訊恢復出來,讓語音頻號聽起來更明亮,更像面對面的交流。

一段音訊訊號通過網路進行傳輸時,要首先被分為若干幀,然後被編碼、組包、傳送。當網路狀態不好或者有波動時,就會有部分包無法按時送達接收端,即發生了丟包。ai音訊超分通過學習大量語料,能夠覆蓋到更多場景,補出丟包的聲音,使得聲音得到還原。

語音增強是指當語音頻號被各種各樣的雜訊干擾、甚至淹沒後,從雜訊背景中提取有用的語音頻號,抑制、降低雜訊干擾的技術。也就是從含噪語音中提取盡可能純淨的原始語音。

(3)ai編碼器

ai編碼器是神經網路的一種,經過訓練後能嘗試將輸入複製到輸出。自編碼器由編碼器和解碼器組成。

ai編碼器本質上是學習輸入資料低維特徵表示的神經網路結構。ai編碼器可以使我們獲得更高的位元速率、解析度、色深、動態範圍等。

ai編碼器可以用來去除雜訊。影象雜訊是指現實中的數字影象在數位化和傳輸過程中常受到成像裝置與外部環境雜訊干擾等影響。

(4)ai降噪

ai降噪可自動實現音訊降噪和調高音量等功能。可以極大消除音訊中的風聲、水聲、電流聲等多種雜訊,與此同時,還可以調高音量,最終匯出高品質的音訊檔案。

語音連麥,遊戲開黑現在也是現在娛樂行業非常熱門的乙個環節,主播與主播,主播與使用者之間連麥溝通,可以增強直播效果,增加使用者的粘性。遊戲開黑更加受到年輕人的喜愛,大家在打遊戲的時候可以保證良好的溝通,讓遊戲效果更加完整。

語音連麥和遊戲開黑都對周圍環境有著很高的要求,周圍的環境如果比較嘈雜就沒有辦法有很好的溝通效果。就拿遊戲比賽直播來說,比賽台上選手們時時刻刻都在進行著溝通,台下的使用者會經常給選手們加油打氣,從而造成隊友之間的溝通不清楚,聽不清指令,對遊戲的進行有很大的影響。而ai降噪可有極大地緩解雜訊對於使用者的影響,ai降噪可以自動識別周圍噪音的,清楚的將人聲傳遞到使用者的耳中。

Airbnb深度學習在搜尋領域的探索總結

其實下面我來梳理一下作者認為自己在這2年多的探索中遇到的失敗模型和一些調參經驗 2個失敗的嘗試 1 list embedding 即對每乙個帶出租的房子進行embedding化處理 和廣告場景中對每乙個商品embedding的思路是一樣的 這個一般看上去會非常make sense,但是最後的效果確不...

螞蟻區塊鏈在司法存證領域的探索與實踐

摘要 以 數字金融新原力 the new force of digital finance 為主題,螞蟻金服atec城市峰會於2019年1月4日上海如期舉辦。在區塊鏈行業研討會上,螞蟻金服司法存證產品負責人慄志果做了主題為 螞蟻區塊鏈在司法存證領域的探索 的精彩分享。在演講中,慄志果作為螞蟻金服司法...

螞蟻區塊鏈在司法存證領域的探索與實踐

摘要 以 數字金融新原力 the new force of digital finance 為主題,螞蟻金服atec城市峰會於2019年1月4日上海如期舉辦。在區塊鏈行業研討會上,螞蟻金服司法存證產品負責人慄志果做了主題為 螞蟻區塊鏈在司法存證領域的探索 的精彩分享。在演講中,慄志果作為螞蟻金服司法...