演算法競賽入門經典第二版 p234
關於字元編碼問題 ,二叉樹可以解決字首衝突,左右節點分別為0或1 ,因此每個葉子節點都可以表示乙個字元,且01字串不會重複。
但是最優字元編碼需要考慮頻率,也就是權值,如果用等長編碼表示(等長不會產生字首衝突),則權值小的字元會占用額外編碼。
因此理想狀態應該是頻率高的字元用較短編碼表示,頻率低的字元用較長編碼表示。比如說,如果我們有一百個字元,依次編號1~100,
而編號91~100是常用字元,每次表示這些字元就需要2或3長度,但是反過來用編號0~9來表示它們,就能節省大量空間。
哈夫曼樹:在乙個含有n個帶權葉子節點的二叉樹中,其中帶權路徑長度最小的二叉樹,成為最優二叉樹。
由引例可知,權值越小的節點,其在哈夫曼樹中的深度越大,在編碼問題中表現為字元頻率越低,其編碼長度越大。
構造哈夫曼樹,給定乙個權值集合:
將集合視為森林,每次取兩個最小值為左右子節點,和為父節點,再將集合中該兩個值刪除,加入權值和,重複步驟直到集合為空。
路徑長度為所有葉子節點的權值與到根節點分支數目,即該節點高度(根節點高度為0)的乘積之和。原集合中的元素都在哈夫曼樹的葉子節點上。
哈夫曼編碼 哈夫曼樹
1.定義 哈夫曼編碼主要用於資料壓縮。哈夫曼編碼是一種可變長編碼。該編碼將出現頻率高的字元,使用短編碼 將出現頻率低的字元,使用長編碼。變長編碼的主要問題是,必須實現非字首編碼,即在乙個字符集中,任何乙個字元的編碼都不是另乙個字元編碼的字首。如 0 10就是非字首編碼,而0 01不是非字首編碼。2....
哈夫曼樹 哈夫曼編碼
定義從a結點到b結點所經過的分支序列為從a結點到b結點的路徑 定義從a結點到b結點所進過的分支個數為從a結點到b結點的路徑長度 從二叉樹的根結點到二叉樹中所有結點的路徑長度紙盒為該二叉樹的路徑長度 huffman樹 帶權值路徑長度最小的擴充二叉樹應是權值大的外界點舉例根結點最近的擴充二叉樹,該樹即為...
哈夫曼編碼 哈夫曼樹
哈夫曼樹是乙個利用權值進行優化編碼的乙個比較奇怪的樹,他的實現比較簡單,用途也比較單一。哈夫曼樹的實現,實現要求 通過哈夫曼樹可以保證在編碼過程中不會出現例如 1000和100這樣的編碼規則,否則就會編碼失敗,因為1000和100在某些情況下的編碼會一模一樣。通過哈夫曼樹可以保證權值大的值進行編碼時...