tts/發音
asr/語義識別
wakeup/喚醒
目前只有中英文混合這一種語言,優先中文發音。
示例:如: 重(chong2)報集團, 「重」發音 chong第二聲
合成效果
通過對param_speaker(發音人)、param_pitch(音調)、param_volume(音量)和param_speed(語速)引數的調整,可以獲得不同的發聲效果,更好滿足您業務場景中的播報需求。 如音調越高,聲音聽起來會顯得越年輕。
在sdk內部中有佇列,可以不斷呼叫synthesize或者speak方法,將合成的文字新增到佇列中。
每次合成的文字不超過120 gbk位元組,即60個漢字或者字母數字。
合成的耗時同文字長度成正比。對合成速度敏感的話,請自行按照標點切分成短句。
多音字可以通過標註自行定義發音。格式如:重(chong2)報集團。
預定義喚醒詞預定義喚醒詞是指已經確認語音喚醒效果的詞彙,在喚醒詞評估工具中均可匯出,目前,已經支援的喚醒詞有:
相機類:拍照、茄子
電燈類:開啟電燈、關閉電燈、增大亮度、減小亮度
手電筒類:開啟手電筒、關閉手電筒
自定義喚醒詞在 頁面進行喚醒詞評估,自定義喚醒詞可支援匯出4星、5星的喚醒詞
喚醒使用步驟如下:
喚醒詞使用:替換demo中的同名檔案,詳見下方喚醒詞在sdk中的使用
將60秒以內的完整音訊檔案識別為文字,專有gpu服務集群,識別響應速度較標準版api提公升2倍及識別準確率提公升15%。適用於近場短語音互動,如手機語音搜尋、聊天輸入等場景。支援上傳完整的錄音檔案,錄音檔案時長不超過60秒。實時返回識別結果
短語音識別極速版支援按呼叫量後付費及次數包。按用量後付費按每月累計呼叫量階梯計價。次數包為預付費,一年內有效,**更優惠。詳情見產品定價文件
如果您在應用語音識別能力時,有行業專有名詞,如金融、醫療、餐飲、地產、製造等行業術語,無法準確識別。推薦使用語音自訓練平台,可以上傳詞彙和長文字進行模型訓練,以及根據業務發展迭代不斷訓練。
平台使用手冊
呼叫短語音識別極速版api,新增訓練模型id即可生效。
確認請求方式:選擇一種http post 請求格式,參見下一節 請求方式
填寫引數:詳細見 引數說明
示例demo**見:
僅支援單聲道
取樣率僅支援16000
cbr bitrates 24000-96000,推薦48000
僅支援aac-lc, 不支援 例如he-aac ,ld,eld等
brand 僅支援 mp42:0, mini version 0 ,不支援 m4a
屬性型別
預設值必填
說明duration
number
60000
否samplerate
number
16000
是必須設為 16000
numberofchannels
number1是
比如設為1,單聲道
encodebitrate
number
48000
否預設值即可,建議48000,可設為24000-96000。該值越大的話,生成檔案越大
format
string
aac否
預設值即可,只支援aac,不支援***
百度AI 開放平台 語音合成
我選擇使用python sdk 進行開發 兩個方法都行 若安裝了pip pip install baidu aip若安裝了setuptools python setup.py install若在python 環境下import aip沒有報錯,即說明sdk 安裝成功。aipspeech是語音合成的p...
利用百度AI 合成語音2
文字合成語音 coding utf 8 from aip import aipspeech from playsound import playsound 20232679 api key bzcwdbzfnlynja63iuc6jdxk secret key w0dexqbht0e3ifvphhv...
百度AI開放平台,共建AI生態
以下為劉倩老師演講實錄 各地開發者將ai能力應用在各行各業 120多項場景化能力與解決方案,幫助各行業快速實現ai公升級 多項能力永久免費,全面普惠開發者 定製訓練平台,快速轉化企業定製化需求 ai開放平台最底層是paddlepaddle,既然有了定製化訓練平台,那為什麼還有paddlepaddle...