小量壓縮簡單演算法

2021-06-03 23:54:21 字數 537 閱讀 1223

小量壓縮簡單演算法

在對文件進行倒排的時候經常涉及到對倒排文件的壓縮,例如假設有單詞instance 出現的文件有<1,3 ,4 , 6 ,9 ,10,... >,即倒排表以公升充排列,這樣我們就可以在倒排檔案中只儲存前後兩個文件位置的差量,即轉變之後結果為<1 ,2 , 1 , 2 , 3 , 1 , ...>,因此在遍歷的時候可以累積得到每個文件位置。分析轉變後的倒排檔案我們可知 (不失一般性)儲存了更多的小量。如果在記憶體中我們以乙個int型別來儲存更多類似於1-10這樣的小量就會造成更多的浪費,這是因為1-10可以不超過 4bit的空間來進行儲存,而int占用32bit,因此會造成大量浪費。如何壓縮資料來節約更多的儲存空間有待我們解決

參考: 

qq架構的討論(整理)

參考: 

linux檢視資料夾大小

參考: 

小量壓縮簡單演算法

參考: 

指標和map

參考: 

效率極低人群之七大習慣

參考: 

realxie的專欄

小量壓縮簡單演算法

本方介紹一種簡單的資料壓縮演算法 sb block 在對文件進行倒排的時候經常涉及到對倒排文件的壓縮,例如假設有單詞instance 出現的文件有 1,3 4 6 9 10,即倒排表以公升充排列,這樣我們就可以在倒排檔案中只儲存前後兩個文件位置的差量,即轉變之後結果為 1 2 1 2 3 1 因此在...

深度學習網路壓縮簡單介紹

我課題組做基於深度學習的影象處理主要分兩條線 我的方向是網路壓縮,為了以後方便展開,下邊先簡要介紹幾種網路壓縮的方式,1 網路修剪 網路修剪,採用當網路權重非常小的時候 小於某個設定的閾值 把它置0,就像二值網路一般 然後遮蔽被設定為0的權重更新,繼續進行訓練 以此迴圈,每隔訓練幾輪過後,繼續進行修...

簡單實現LZ77壓縮演算法

因為哈弗曼編碼對於大檔案的壓縮有很大的侷限性 且壓縮比十分有限 所以決定根據lz77演算法寫乙個簡單的壓縮庫 組成因為時間較為緊張 目前完成了最基礎的zip演算法的編寫 即根據lz77演算法 滑動視窗壓縮 先對壓縮檔案得到乙個資料三元組 然後針對數字出現的頻率再進行哈弗曼演算法 為了更好的壓縮比 我...