計算機中使用二進位制編碼字元;
哈夫曼編碼是通過構造哈夫曼樹得到的, 哈夫曼樹是通過貪心演算法得到的;
貪心演算法構造哈夫曼樹:
將字元出現的次數作為哈夫曼樹的權值,按照貪心演算法,選擇權值最小的兩個結點,成為乙個數的左右結點;左右子結點的權值變為子樹根的權值;然後在餘下的結點中遞迴選用最小的兩個結點;
根據哈夫曼樹得到哈夫曼編碼:
從根開始, 遇到左分支編碼為0, 遇到右分支編碼為1;
對於同乙個編碼, 哈夫曼編碼不唯一,但是都能正常工作;
哈夫曼編碼是一種變長編碼,權值越大的字元,其編碼越小;可變長編碼要比固定長度編碼好很多,其特點是對頻度高的字元以短編碼,對頻度低的字元以長編碼;
哈夫曼編碼,不存在乙個字元編碼是另乙個編碼的一部分,因為哈夫曼編碼是字首碼, 從根節點到葉節點a的路徑, 不可能是根節點到葉節點b的一部分;
任何一顆二叉樹的編碼都是字首碼;哈夫曼編碼不僅僅是字首碼,還是帶權路徑最小的;
貪心演算法的正確性依賴於貪心選擇性質和最優子結構。
構造哈夫曼樹的思路如下:
1) 已知乙個需要編碼的字串行,將這個序列按照字元出現頻率為權值壓入優先佇列中(小根堆);
2) 從優先佇列中取出兩個節點, 這兩個節點稱為新建節點的左右子樹, 新建節點的權值等於左右子樹權值之和,再將新建節點壓回優先佇列;
3) 反覆執行步驟2, 直到優先佇列中只有乙個節點, 這個節點就是哈夫曼樹的根節點;
對哈夫曼使用貪心演算法的正確性解釋:
需要證明最優字首編碼的問題具有貪心選擇性質和最優子結構性質;
這相當於x和y是兄弟節點, 即對於字母表c中, 其頻度最低的兩個節點肯定是兄弟節點;
因此, 通過合併來構造一棵最優樹的過程,可以貪心選擇兩個頻度最低的字元開始。這為什麼是乙個貪心選擇呢?我們可以認為一次合併的代價就是被合併的兩個字元的頻度之和。選擇頻度最低的兩個字元合併,使得最終哈夫曼樹的合併代價最低;
哈夫曼編碼 哈夫曼樹
1.定義 哈夫曼編碼主要用於資料壓縮。哈夫曼編碼是一種可變長編碼。該編碼將出現頻率高的字元,使用短編碼 將出現頻率低的字元,使用長編碼。變長編碼的主要問題是,必須實現非字首編碼,即在乙個字符集中,任何乙個字元的編碼都不是另乙個字元編碼的字首。如 0 10就是非字首編碼,而0 01不是非字首編碼。2....
哈夫曼樹 哈夫曼編碼
定義從a結點到b結點所經過的分支序列為從a結點到b結點的路徑 定義從a結點到b結點所進過的分支個數為從a結點到b結點的路徑長度 從二叉樹的根結點到二叉樹中所有結點的路徑長度紙盒為該二叉樹的路徑長度 huffman樹 帶權值路徑長度最小的擴充二叉樹應是權值大的外界點舉例根結點最近的擴充二叉樹,該樹即為...
哈夫曼編碼 哈夫曼樹
哈夫曼樹是乙個利用權值進行優化編碼的乙個比較奇怪的樹,他的實現比較簡單,用途也比較單一。哈夫曼樹的實現,實現要求 通過哈夫曼樹可以保證在編碼過程中不會出現例如 1000和100這樣的編碼規則,否則就會編碼失敗,因為1000和100在某些情況下的編碼會一模一樣。通過哈夫曼樹可以保證權值大的值進行編碼時...