小量壓縮簡單演算法
在對文件進行倒排的時候經常涉及到對倒排文件的壓縮,例如假設有單詞instance 出現的文件有<1,3 ,4 , 6 ,9 ,10,... >,即倒排表以公升充排列,這樣我們就可以在倒排檔案中只儲存前後兩個文件位置的差量,即轉變之後結果為<1 ,2 , 1 , 2 , 3 , 1 , ...>,因此在遍歷的時候可以累積得到每個文件位置。分析轉變後的倒排檔案我們可知 (不失一般性)儲存了更多的小量。如果在記憶體中我們以乙個int型別來儲存更多類似於1-10這樣的小量就會造成更多的浪費,這是因為1-10可以不超過 4bit的空間來進行儲存,而int占用32bit,因此會造成大量浪費。如何壓縮資料來節約更多的儲存空間有待我們解決
參考:
qq架構的討論(整理)
參考:
linux檢視資料夾大小
參考:
小量壓縮簡單演算法
參考:
指標和map
參考:
效率極低人群之七大習慣
參考:
realxie的專欄
小量壓縮簡單演算法
本方介紹一種簡單的資料壓縮演算法 sb block 在對文件進行倒排的時候經常涉及到對倒排文件的壓縮,例如假設有單詞instance 出現的文件有 1,3 4 6 9 10,即倒排表以公升充排列,這樣我們就可以在倒排檔案中只儲存前後兩個文件位置的差量,即轉變之後結果為 1 2 1 2 3 1 因此在...
深度學習網路壓縮簡單介紹
我課題組做基於深度學習的影象處理主要分兩條線 我的方向是網路壓縮,為了以後方便展開,下邊先簡要介紹幾種網路壓縮的方式,1 網路修剪 網路修剪,採用當網路權重非常小的時候 小於某個設定的閾值 把它置0,就像二值網路一般 然後遮蔽被設定為0的權重更新,繼續進行訓練 以此迴圈,每隔訓練幾輪過後,繼續進行修...
簡單實現LZ77壓縮演算法
因為哈弗曼編碼對於大檔案的壓縮有很大的侷限性 且壓縮比十分有限 所以決定根據lz77演算法寫乙個簡單的壓縮庫 組成因為時間較為緊張 目前完成了最基礎的zip演算法的編寫 即根據lz77演算法 滑動視窗壓縮 先對壓縮檔案得到乙個資料三元組 然後針對數字出現的頻率再進行哈弗曼演算法 為了更好的壓縮比 我...