在計算機資料處理中,霍夫曼編碼使用變長編碼表對源符號進行編碼,出現頻率較高的源符號採用較短的編碼,出現頻率較低的符號採用較長的編碼,使編碼之後的字串字串的平均長度 、期望值降低,以達到無失真壓縮資料的目的。
舉個例子,現在我們有一字串:
this is an example of a huffman tree這串字串有36個字元,如果按普通方式儲存這串字串,每個字元佔據1個位元組,則共需要36 * 1 * 8 = 288bit。
(位元組是計算機處理資料的基本單位, 位(bit) 是儲存資料的基本單位, 乙個位元組byte=8bit位, 乙個中文字元通常佔兩個位元組,英文乙個)
經過分析我們發現,這串字串中各字母出現的頻率不同,假設我們按如下編碼(出現頻率較高的源符號採用較短的編碼,出現頻率較低的符號採用較長的編碼):
字母頻率
編碼---
字母頻率
編碼space
7111s2
1011a4
010t
20110e4
000l
111001f3
1101o1
00110h2
1010p1
10011i2
1000r1
11000m2
0111u1
00111n2
0010x1
10010
編碼這串字串,只需要:
編碼這串字串,只需要:
(7+4+4)x3 + (3+2+2+2+2+2+2)x4 + (1+1+1+1+1+1)x 5 = 45+60+30 = 135bit
編碼這串字串只需要135bit!單單這串字串,就壓縮了288-135 = 153bit。---- 用哈夫曼樹來編碼
哈夫曼又稱最優二叉樹。是一種帶權路徑長度最短的二叉樹。它的定義如下:
假設有n個權值,構造一棵有n個節點的二叉樹,若樹的帶權路徑最小,則這顆樹稱作哈夫曼樹。這裡面涉及到幾個概念,我們由一棵哈夫曼樹來解釋
哈夫曼編碼 哈夫曼樹
1.定義 哈夫曼編碼主要用於資料壓縮。哈夫曼編碼是一種可變長編碼。該編碼將出現頻率高的字元,使用短編碼 將出現頻率低的字元,使用長編碼。變長編碼的主要問題是,必須實現非字首編碼,即在乙個字符集中,任何乙個字元的編碼都不是另乙個字元編碼的字首。如 0 10就是非字首編碼,而0 01不是非字首編碼。2....
哈夫曼樹 哈夫曼編碼
定義從a結點到b結點所經過的分支序列為從a結點到b結點的路徑 定義從a結點到b結點所進過的分支個數為從a結點到b結點的路徑長度 從二叉樹的根結點到二叉樹中所有結點的路徑長度紙盒為該二叉樹的路徑長度 huffman樹 帶權值路徑長度最小的擴充二叉樹應是權值大的外界點舉例根結點最近的擴充二叉樹,該樹即為...
哈夫曼編碼 哈夫曼樹
哈夫曼樹是乙個利用權值進行優化編碼的乙個比較奇怪的樹,他的實現比較簡單,用途也比較單一。哈夫曼樹的實現,實現要求 通過哈夫曼樹可以保證在編碼過程中不會出現例如 1000和100這樣的編碼規則,否則就會編碼失敗,因為1000和100在某些情況下的編碼會一模一樣。通過哈夫曼樹可以保證權值大的值進行編碼時...