url去重方法和字串編碼

1.將訪問過的url儲存到資料庫中

應用簡單，效率低

2.將訪問過的url儲存到set中，只需o（1）的代價就可以查詢url

效率高，但是隨著資料的增加，記憶體會出現占用過大。

100000000*2byte*50字元/1024/1024/1024=9g

3.url經過md5編碼等方法雜湊後儲存到set中

固定編碼，壓縮url，節省了記憶體

4.用bitmap方法，將訪問過的url通過hash函式對映到某一位

5.boomfilter方法對bitmap進行改進，多重hash函式降低衝突

1.計算機只能處理數字，文字轉換為數字才能處理。計算機中8個bit作為乙個位元組，所以乙個位元組可以表示最大的數字就是255

2.計算機是美國人發明的，所以乙個位元組可以表示所有的字元，所以ascii(乙個位元組）編碼就成為美國人的標準編碼

3.中國指定了gb2312編碼，用兩個位元組表示乙個漢字。gb2312還把ascii包含進去了。多國標準語言混合顯示必然會導致亂碼的出現

4.unicode的出現，將所有的語言統一到一套編碼裡

5.ascii和unicode編碼的區別

字母a用ascii編碼十進位制是65，二進位制是0100 0001

漢字「中」超出了ascii編碼的範圍，用unicode編碼是20013，二進位制是01001110 00101101

a用unicode編碼只需要前面補0就可以了，二進位制是0000 0000 0100 0001

6.解決了亂碼問題，但是內容全是英文，unicode編碼比ascii需要多一倍的儲存空間，傳輸需要多一倍的傳輸

7.出現了「utf-8」把英文變長乙個位元組，漢字3個位元組，特別生僻的變成4-8位元組，如果傳輸大量英文，utf8作用就非常明顯

編碼格式演示

字串去重的方法

不保證原有順序 public static void main string args public static string removedb string word,int index string w string.valueof words index 當前比較的字元轉成字串 word w...

字串去重

字串去重，思路是在乙個字串例如 strstrrtsiiiinnnggggg 中，遍歷所有的字元，拼接到stringbuffer中。在執行速度上來看stringbuffer的拼接速度要快與string。通過str.charat i 的方法得到當前遍歷到的字元。通過indexof方法得到該字元第一次出現...

字串去重

doctype html en utf 8 viewport content width device width,initial scale 1.0 document title head 思路 1.宣告乙個空字元 2.將需要去重字元，乙個乙個新增到空字串中條件 s裡面沒有這個字元，就加進去 v...

url去重方法和字串編碼

字串去重的方法

字串去重

字串去重

相關推薦