對任意一顆二叉樹而言,如果把二叉樹上的所有分支都進行編號,將所有左分支都記為0,所有右分支都記為1,那麼對樹上任意乙個結點,都可以根據從根結點出發到它的分支順序得到乙個編號,並且這個編號是所有節點中唯一的
對任何乙個非葉子節點,其編號一定是某個葉子結點編號的字首,並且,對於任何乙個葉子結點,其編號一定不會成為其他任何乙個結點編號的字首。
這有什麼用呢?假設現在有乙個字串,它由a、b、c、d這四個英文本元的乙個或多個組成,例如abcad。現在希望把它編碼成乙個01串,這樣方便資料的傳輸。能想到的乙個辦法是把a-d各自用乙個01串表示,然後拼接起來即可。例如可以把a用0表示,b用1表示,c用00表示,d用01表示,這樣abcad就可以用0100001表示。但是很快就會發現,解碼的時候無法知道開頭的01到底是ab還是d,因此這種編碼方式是不可行的,存在一種字元的編碼是另一種字元編碼的字首
因此需要尋找一套編碼方式,使得其中任何乙個字元的編碼都不是另乙個字元編碼的字首,同時要把滿足這種編碼方式的編碼稱為字首編碼。字首編碼存在的意義在於不產生混淆,編碼能夠正常進行
如果把a、b、c、d的出現次數(即頻數)作為各自葉子結點的權值,那麼字串編碼成01串後的長度實際上就是這棵樹的帶權路徑長度
於是問題就轉換成,把每個字元的出現次數作為葉子結點的權值,求一棵樹,使得這棵樹的帶權路徑長度最小。事實上,就是哈夫曼樹,只需要針對葉子結點的權值來建立哈夫曼樹,這種由哈夫曼樹產生的編碼方式被稱為哈夫曼編碼,顯然,哈夫曼編碼是能使給定的字串編碼成01字串後長度最短的字首編碼
哈夫曼編碼是針對確定的字串來講的,只有對確定的字串,才能根據其中各字元出現的次數來建立哈夫曼樹
哈夫曼編碼 哈夫曼樹
1.定義 哈夫曼編碼主要用於資料壓縮。哈夫曼編碼是一種可變長編碼。該編碼將出現頻率高的字元,使用短編碼 將出現頻率低的字元,使用長編碼。變長編碼的主要問題是,必須實現非字首編碼,即在乙個字符集中,任何乙個字元的編碼都不是另乙個字元編碼的字首。如 0 10就是非字首編碼,而0 01不是非字首編碼。2....
哈夫曼樹 哈夫曼編碼
定義從a結點到b結點所經過的分支序列為從a結點到b結點的路徑 定義從a結點到b結點所進過的分支個數為從a結點到b結點的路徑長度 從二叉樹的根結點到二叉樹中所有結點的路徑長度紙盒為該二叉樹的路徑長度 huffman樹 帶權值路徑長度最小的擴充二叉樹應是權值大的外界點舉例根結點最近的擴充二叉樹,該樹即為...
哈夫曼編碼 哈夫曼樹
哈夫曼樹是乙個利用權值進行優化編碼的乙個比較奇怪的樹,他的實現比較簡單,用途也比較單一。哈夫曼樹的實現,實現要求 通過哈夫曼樹可以保證在編碼過程中不會出現例如 1000和100這樣的編碼規則,否則就會編碼失敗,因為1000和100在某些情況下的編碼會一模一樣。通過哈夫曼樹可以保證權值大的值進行編碼時...