編碼:文字中的字元賦予一串位元位
定長編碼
變長編碼:較短的位元串給常用字元
較長位元串給不常用字元
字首碼:所有的位元串都不是另乙個字元位元串的字首
考慮將字元和二叉樹的葉子聯絡起來形成字首碼
哈夫曼編碼是廣泛地用於資料檔案壓縮的十分有效的編碼方法。其壓縮率通常在20%~90%之間
哈夫曼編碼演算法用字元在檔案中出現的頻率表來建立乙個用0,1串表示各字元的最優表示方式。
編碼過程:
1)初始化n個字元單節點的樹,每個字元具有概率,記為權重
2)重複下面的步驟直到剩下一棵單獨的樹。
找到兩個樹權重最小,把他們作為新樹中的左右子樹。並把其權重之和作為新的權重記錄在新樹的根中。
如a 0.35 b 0.1 c 0.2 d 0.2 _ 0.15
建樹後平均字長是多少?
壓縮率
如何獲得字元頻率?
掃瞄給定的文字統計每個字元的出現次數
優先佇列(priority queue)
普通的佇列是一種先進先出的資料結構,元素在佇列尾追加,而從佇列頭刪除。在優先佇列中,元素被賦予優先順序。當訪問元素時,具有最高優先順序的元素最先刪除。優先佇列具有最高端先出 (largest-in,first-out)的行為特徵。
優先佇列是0個或多個元素的集合,每個元素都有乙個優先權或值,對優先佇列執行的操作有1) 查詢;2) 插入乙個新元素;3) 刪除.在最小優先佇列(min priority queue)中,查詢操作用來搜尋優先權最小的元素,刪除操作用來刪除該元素;對於最大優先佇列(max priority queue),查詢操作用來搜尋優先權最大的元素,刪除操作用來刪除該元素.優先權佇列中的元素可以有相同的優先權,查詢與刪除操作可根據任意優先權進行.
例題:
請設計乙個演算法,給乙個字串進行二進位制編碼,使得編碼後字串長度最短
(以下**來自牛課網)
#include#include#include#include#define max 100
using namespace std;
int main()
; while(cin>>newstring)
{ int i,j;
int countnum=0;//統計不同字元個數
int sum=0;//記錄編碼後的長度
int first=0,second=0;//記錄佇列最小兩個值
int len=strlen(newstring);
priority_queue,greate>huffmanqueue;//定義小值優先高的佇列
sort(&newstring[0],&newstring[len]);
for(i=0;i
哈夫曼編碼 哈夫曼樹
1.定義 哈夫曼編碼主要用於資料壓縮。哈夫曼編碼是一種可變長編碼。該編碼將出現頻率高的字元,使用短編碼 將出現頻率低的字元,使用長編碼。變長編碼的主要問題是,必須實現非字首編碼,即在乙個字符集中,任何乙個字元的編碼都不是另乙個字元編碼的字首。如 0 10就是非字首編碼,而0 01不是非字首編碼。2....
哈夫曼樹 哈夫曼編碼
定義從a結點到b結點所經過的分支序列為從a結點到b結點的路徑 定義從a結點到b結點所進過的分支個數為從a結點到b結點的路徑長度 從二叉樹的根結點到二叉樹中所有結點的路徑長度紙盒為該二叉樹的路徑長度 huffman樹 帶權值路徑長度最小的擴充二叉樹應是權值大的外界點舉例根結點最近的擴充二叉樹,該樹即為...
哈夫曼編碼 哈夫曼樹
哈夫曼樹是乙個利用權值進行優化編碼的乙個比較奇怪的樹,他的實現比較簡單,用途也比較單一。哈夫曼樹的實現,實現要求 通過哈夫曼樹可以保證在編碼過程中不會出現例如 1000和100這樣的編碼規則,否則就會編碼失敗,因為1000和100在某些情況下的編碼會一模一樣。通過哈夫曼樹可以保證權值大的值進行編碼時...