語音互動有哪些優勢與劣勢?

2021-10-24 11:22:33 字數 2933 閱讀 8366

語音互動是指人與人、人與裝置之間,通過自然語音進行資訊傳遞的過程。人與人之間通過語音來傳遞資訊、交流感情等等,其實就是一種最基本的人與人之間的語音互動。

為什麼vui這個概念(voice user inte***ce)在最近幾年又變得的火起來了呢?因為人們發現除了人與人之間可以通過語音來互動之外,已經可以慢慢地對一些智慧型裝置(如手機、智慧型音箱、車載系統等),通過語音進行互動下達指令或者獲得反饋等,所以現在的語音互動的概念已經不僅僅侷限於人與人之間了。

尤其是對語音行業的研究來講,我們的注意力更主要的是集中在人機互動上,所以很多時候vui這個概念就是特指人機語音互動。

那麼,為什麼我們要**人機語音互動呢?是因為語音互動本身獨有的優勢,我把它總結為這樣四點的優勢

一、語音的輸入效率比較高

輸入效率高,體現在以下幾個方面:

1、通過語音去檢索資訊的效率會比較高,尤其是針對複雜的query

在這種輸入方式不變的場景下,通過語音的互動效率會更高,比如說當我在家裡看電影的時候,我可以直接對著電視機說出我要看的電視節目或者是電影名稱。這種互動來講,通過語音的方式,直接下達指令會更方便。

2、語音互動可以跨空間,對於跨空間的互動方式更加便捷

跨空間的含義,我們可以簡單地理解為遠距離的語音互動,這裡的一般稱之為遠場語音互動或者是遠講,遠場的意思是說我的說話人距離我的裝置的麥克風的距離要比較遠,一般來講至少是1公尺以上,很多時候是3到5公尺,甚至是更遠。

在這種跨空間的場景下,一般傳統意義上的文字互動,很多時候是不可能操作的。比如,當距離智慧型音箱(手機)比較遠的時候,不可能通過文字的方式去進行互動,所以在這種場景下,語音互動就顯得更加必要、高效。

3、語音支援組合指令輸出

即我們發出語音指令的時候,可以一次性的下達多條指令,然後由機器識別之後,分別去執行這些指令的意圖。

這樣的話,通過語音,一句話就可以把我的多層次的指令通過組合的方式一起來下達,並且智慧型機器會通過解析我的指令含義,去依次呼叫相應的skill來滿足我的指令的下達方式。

這些就是語音輸入方式比傳統輸入方式效率高的原因。

二、解放雙手和雙眼,更安全

其實談到解放雙手,我們馬上會想到車載場景。其實對於車載場景來講,我們是絕對不可能在車上一邊開車一邊通過手機用手敲漢字的方式進行互動的,這個也是絕對不允許的。在車載場景裡,如果你想設定導航、聽**、聽廣播,也是必須要用語言來進行互動的。而在現在很多的汽車上,其實也都已經內建了車載語音互動的功能。

除了車載場景之外,還有其他的場景,比如說醫療場景:醫生在跟病人或者病人家屬溝通病情時,他可能同時雙手還要去操作各種各樣的複雜的醫療裝置,那這時候,如果醫生需要記錄病歷,通過語音的方式來做就是乙個比較必要的一種方式了。

三、使用門檻低

其實我們每個人都有經驗,我們人與人之間的互動,最早本來就是用語言進行互動的。乙個還不會寫字的小孩子在慢慢長大的過程當中,與父母與其他的朋友之間的互動,都是通過語音來進行的,這是乙個我們人類天然就具備的互動能力。

尤其對於小孩子、一些老人、一些有視覺障礙的人群,他們更是沒有辦法通過文字的方式來進行互動,所以語音互動的方式會為這些人帶來非常大的便利。此外,語音互動的學習成本比較低,它的互動方式更加自然,所以它的上手成本也比較低。

四、可以傳遞更多的聲學資訊

我們知道,一段語音不僅僅包含這段語音所承載的內容資訊,還包括其他的資訊,比如聲紋資訊、身份資訊、性別資訊(說這段話的人的是男是女)、年齡資訊、情感資訊(指的是人在說這段話的時候他的感情是怎麼樣的,它是生氣的還是高興的還是悲傷的)等等。

這些資訊都可以通過一段語音頻號借助各種技術把它解析出來。那麼相比於傳統文字的這種乾巴巴的互動方式來講,語音它能夠傳遞的資訊會更多。

這些就是語音互動的幾點優勢。但是,對於一種互動方式,尤其是人機語音互動這樣一種新型的互動方式,自然也有一些劣勢

一、接收效率比較低

在剛剛的分析中,我們一直是集中在語音輸入的方式。而對於資訊的接收,我們則是從輸出的角度來講的。語音的輸出其實是乙個線性的輸出。

什麼意思呢?也就是說當你在聽別人說一段話的時候,你很有可能需要等到對方把這句話全部說完以後,或者是說完大部分以後,才能夠理解對方想說的話是什麼意思。

因為看一段文字,我們可以直接的很快速的去掌握這段文字的中心內容,而如果我要去聽一段語音的話,那我必須要把這段語音從頭到尾的完整的聽完,我才能知道對方寫了講的是什麼。所以這一點上,我們說語音輸出是乙個線性的輸出,對於資訊接收者來說,它的效率是比較低的。

二、環境複雜

我們面臨的各種各樣複雜的生活環境,這一點也是語音頻號處理課程所要著重解決的乙個問題。

我們每天都被各種複雜的環境所包圍。這些環境裡可能會包含著各種各樣我們不需要或者是不想聽到的聲音。

當這些聲音與我們想要聽的那些聲音交疊在一起的時候,就會對我們的互動體驗產生非常大的影響,所以複雜的聲學環境是我們在設計人機語音互動系統時,所必須考慮的乙個問題。

三、使用者的心理負擔

這一點,也是對於語音互動設計者來說最難把握的一點。因為使用者在實際使用這個人機互動系統的時候,他的很多行為往往是我們沒有辦法事先預期的。

對於同乙個互動場景,不同人的互動方式很有可能會不一樣。從使用者的心理體驗來說,可能會有一部分人的人機語音互動的習慣還沒有培養起來,也可能會有一些人,他不太願意對著機器去通過語音來說話,尤其是身處在乙個比較開放的需要顧及個人隱私的場景的時候更是如此。

通過以上的內容,我們可以了解到語音互動的本身是有它的優勢的,當然也有它不足的地方,而不足的地方正是需要我們去著重解決的一些問題。

特別感謝

本文整理自深藍學院《語音頻號處理》課程,感謝宋輝老師的細心講解,以及深藍學院提供的優質課程,再次感謝!

Flutter的優勢與劣勢

flutter,本質上一套跨平台的ui框架,通過opengl這種跨平台的繪製庫 內部會呼叫作業系統api 實現了一套 跨多端。framework底層是flutter引擎,引擎全部使用c 實現,強大的引擎能力,提供高效的圖形和文字繪製。所以flutter主要做頁面的跨端開發,當前情況下,開發乙個成熟的...

yum安裝與原始碼安裝優勢 劣勢

在網上看到很多觀點,有的說yum安裝好,有的說原始碼安裝好,還有的人說兩者結合起來好,下面是從網上摘錄的幾種觀點 觀點一 根做運維的朋友聊天,談到了,yum安裝和原始碼安裝哪個好的問題。真沒想到,關於這個問題,分歧還挺大的。有的人認為,不用原始碼安裝就不是好的運維,不是好的系統管理員。這帽子扣的有點...

yum安裝與原始碼安裝優勢 劣勢

在網上看到很多觀點,有的說yum安裝好,有的說原始碼安裝好,還有的人說兩者結合起來好,下面是從網上摘錄的幾種觀點 根做運維的朋友聊天,談到了,yum安裝和原始碼安裝哪個好的問題。真沒想到,關於這個問題,分歧還挺大的。有的人認為,不用原始碼安裝就不是好的運維,不是好的系統管理員。這帽子扣的有點大了。在...