心理聲學基礎

行者ai

聲音雖然客觀存在，但是人的主觀聽覺和客觀實際存在差異化。心理聲學研究的就是聲音的主觀感覺和物理量之間的關係，因為人耳聽覺對聲音的主觀響應是評價音質好壞的唯一標準。對於複雜的聲音，從主觀可以用響度、音高和音色來描述。客觀上，響度和音高與聲波的振幅（幅度）有關，音色和頻譜及包絡有關，而音高與頻譜的頻率有關。

聲波的幅度可以用聲壓或者聲強來表示，而實際中常常使用級來表示，分貝則是常用的級的單位。採用級的主要原因有：

a. 聲音震動的能量範圍比較大，最大與最小值可以相差10多個數量級，表示起來比較麻煩且易出錯。使用對數表示則要方便許多。

b. 人耳聽覺增長規律非線性，主觀上的響度感覺並不正比於強度而是接近於強度的對數成正比。

分貝（decibel）是量度兩個相同單位之數量比例的單位，主要用於度量聲音強度，常用db表示。「分」（deci-）指十分之一，個位是「貝」（bel），但一般只採用分貝。

聲功率級是聲功率與基準聲功率之比的以10為底的對數乘以10，以分貝計。基準聲功率必須指明。其數字表示式為swl=10lg(w/wo)，常用基準聲功率wo為10-12w。

聲強級指某一處的聲強級，是指該處的聲強與參考聲強的比值常用對數的值再乘以10，度量它的單位為分貝，符號為db。數學表示式為sil=10log(i/i(ref))，參考聲強i(ref)是10-12瓦/公尺2。

聲壓級指在空氣中參考聲壓p(ref）一般取為2*10e-5帕，這個數值是正常人耳對1千赫聲音剛剛能覺察其存在的聲壓值，也就是1千赫聲音的可聽閾聲壓。數學表示式為：spl=20lg(p/p(ref))。

生活中所到的正常交談約60db噪音在80db左右以上而安全極限為140db，這裡使用的就是聲壓級。

librosa中計算分貝，直接使用兩個相同的物理量（例如a1和a0）之比取以10為底的對數並乘以10（也可以是20）。

@cache(level=30)
def power_to_db(s, ref=1.0, amin=1e-10, top_db=80.0):
s = np.asarray(s)
if amin <= 0:
raise parametererror('amin must be strictly positive')
if np.issubdtype(s.dtype, np.complexfloating):
warnings.warn('power_to_db was called on complex input so phase '
'information will be discarded. to suppress this warning, '
'call power_to_db(magphase(d, power=2)[0]) instead.')
magnitude = np.abs(s)
else:
magnitude = s
if six.callable(ref):
# user supplied a function to calculate reference power
ref_value = ref(magnitude)
else:
ref_value = np.abs(ref)
log_spec = 10.0 * np.log10(np.maximum(amin, magnitude))
log_spec -= 10.0 * np.log10(np.maximum(amin, ref_value))
if top_db is not none:
if top_db < 0:
raise parametererror('top_db must be non-negative')
log_spec = np.maximum(log_spec, log_spec.max() - top_db)
return log_spec

級表明人耳對訊號的強度呈非線性增長的特點，然而2個相同聲級的聲音人耳聽起來也不一定相同，這是因為人耳的聽覺頻響是不平直的。

從等響曲線圖中我們發現，人耳對高頻的聲音更加敏感，同樣聲壓級下的高頻聲音響度級比低頻的高。一般女性發聲的高頻成分較多，而男性發聲的低頻成分相對較多，這就是在同樣力氣講話時（聲壓級相同），女性的聲音聽上去更加響的原因。

聲壓級越高，人的聽覺頻響越平直，隨著聲壓級降低人的聽覺頻響月不平直，尤其在中低頻**幅度越大。而無論聲壓級多大，低於20hz和高於20khz的聲音一般聽不到而對3-5khz頻率段最敏感。

響度級和等響曲線描述了人耳的聽覺頻響，但要描述人耳對聲音大小強弱的主觀判斷需要引入響度。響度是乙個無量綱單位。

人耳對聲音高低的感覺主要與頻率有關，人耳的音高感覺大致與聲音的基頻對數呈線性關係，12平均律音階就是在頻率的對數上取等分得到的。

倍頻程是頻程的單位，符號為oct，等於2個音的頻率比取2位底的對數，在**中稱之為八度。n=log2(f2/f1)

十二平均律，亦稱「十二等程律」,世界上通用的一組音（八度）分成十二個半音音程的律制，各相鄰兩律之間的振動數之比完全相等。十二平均律是指八度的音程（一倍頻程）按頻率比例地分成十二等份，每一等份稱為乙個半音小二度。

乙個大二度則是兩等份。將乙個八度分成12等份有著驚人的一些湊巧。它的純五度音程的兩個音的頻率比（即2 的7/12 次方）與1.5 非常接近，人耳基本上聽不出「五度相生律」和「十二平均律」的五度音程的差別。十二平均律在交響樂隊和鍵盤樂器中得到廣泛使用，現在的鋼琴即是根據十二平均律來定音的。

心理聲學中除了使用響度表達聲音的強度，使用音調來表達聽覺主觀感受，音調單位為mel。

音色（timbre）是指不同聲音表現在波形方面總是有與眾不同的特性，不同的物體振動都有不同的特點。音色是聲音的屬性（即響度、音調、音色）之一，主要由其泛音決定。每個人的聲音以及各種樂器所發出的聲音的區別，就是由音色不同造成的。

不同的發聲體由於其材料、結構不同，則發出聲音的音色也不同。例如鋼琴、小提琴和人發出的聲音不一樣，每乙個人發出的聲音也不一樣。音色是聲音的特點，和全世界人們的相貌一樣總是與眾不同。根據不同的音色，即使在同一音高和同一聲音強度的情況下，我們也能區分出是不同樂器或人發出的。如同千變萬化的調色盤是的顏色一樣，「音色」也會千變萬化而容易理解。

音色又稱為音品。為什麼音色不同？是由於不同的振動總是可組合成為不同的聲音。每一種樂器、不同的人的聲帶，以及其它所有的能振動的物體都能夠發出各有特色的不同的聲音，這些聲音的還可以有儀器顯示出波形波形。聲音除了有乙個『基音』外，還自然而然加上許多不同『頻率』（振動的物體1秒鐘振動的次數）與泛音『交織』，就決定了不同的音色，使人聽了以後能辨別出是不同的聲音。如同區分不同的『身份證』一樣。

一般來說，諧音越豐富音色越明亮也可能越尖銳，相反的，諧音貧乏的聽起來更具有暗淡或柔和的音色。除了頻譜，音色還與波的時間結構（包絡）有關，包含起始、穩定到衰減的特性。

聲源發出的聲波到雙耳的距離不同引起雙耳的強度差、時間差和相位差。一側耳朵出現的遮蔽效應也會引起強度差和音色差等。

哈斯效應又稱之為延時效應或優先效應，表徵人耳對延時聲的分辨能力，2個同樣的聲音先後到達，若其中乙個快5-35ms那麼人耳幾乎察覺不到延遲，後乙個起到豐滿補充的作用；如果相差30-50ms人耳會有一定察覺但仍然取決於先到的聲音方向；如果相差50ms以上，人耳就能分辨2個聲音各自的**方向。

作為立體聲系統定向的基礎之一，聲強級差與時間差所引起的效是是類似的，其間可以相互補償，並且聲強級差在15db以下、時間差在3ms以內時，它們之間呈線性關係，每5db的聲強級差引起的聲像偏移相當於兩聲音引起的時間差1ms的效果，這便是德波埃效應。

乙個較弱的聲音的聽覺感受被另乙個較強的聲音影響的現象，我們就稱之為人耳的「掩蔽效應」。「掩蔽效應」存在時域和頻域掩蔽，「掩蔽效應」在實際聲學應用中有很重要的作用，比如***壓縮技術就採用了掩蔽效應。

描述在嘈雜環境中，人耳可以在掩蔽聲中選擇有用的聲音並專注於想聽的內容，表徵了人在聽覺上的選擇關注能力。

心理聲學基礎

心理聲學基礎

聲學基礎01

聲學基礎學習筆記

心理聲學基礎

心理聲學基礎

聲學基礎01

聲學基礎 學習筆記

相關推薦

聲學基礎學習筆記