url去重方法和字串編碼

2021-08-18 20:38:14 字數 1190 閱讀 2649

1.將訪問過的url儲存到資料庫中

應用簡單,效率低

2.將訪問過的url儲存到set中,只需o(1)的代價就可以查詢url

效率高,但是隨著資料的增加,記憶體會出現占用過大。

100000000*2byte*50字元/1024/1024/1024=9g

3.url經過md5編碼等方法雜湊後儲存到set中

固定編碼,壓縮url,節省了記憶體

4.用bitmap方法,將訪問過的url通過hash函式對映到某一位

5.boomfilter方法對bitmap進行改進,多重hash函式降低衝突

1.計算機只能處理數字,文字轉換為數字才能處理。計算機中8個bit作為乙個位元組,所以乙個位元組可以表示最大的數字就是255

2.計算機是美國人發明的,所以乙個位元組可以表示所有的字元,所以ascii(乙個位元組)編碼就成為美國人的標準編碼

3.中國指定了gb2312編碼,用兩個位元組表示乙個漢字。gb2312還把ascii包含進去了。多國標準語言混合顯示必然會導致亂碼的出現

4.unicode的出現,將所有的語言統一到一套編碼裡

5.ascii和unicode編碼的區別

字母a用ascii編碼十進位制是65,二進位制是0100 0001

漢字「中」超出了ascii編碼的範圍,用unicode編碼是20013,二進位制是01001110 00101101

a用unicode編碼只需要前面補0就可以了,二進位制是0000 0000 0100 0001

6.解決了亂碼問題,但是內容全是英文,unicode編碼比ascii需要多一倍的儲存空間,傳輸需要多一倍的傳輸

7.出現了「utf-8」把英文變長乙個位元組,漢字3個位元組,特別生僻的變成4-8位元組,如果傳輸大量英文,utf8作用就非常明顯

編碼格式演示

字串去重的方法

不保證原有順序 public static void main string args public static string removedb string word,int index string w string.valueof words index 當前比較的字元轉成字串 word w...

字串去重

字串去重,思路是在乙個字串例如 strstrrtsiiiinnnggggg 中,遍歷所有的字元,拼接到stringbuffer中。在執行速度上來看stringbuffer的拼接速度要快與string。通過str.charat i 的方法得到當前遍歷到的字元。通過indexof方法得到該字元第一次出現...

字串去重

doctype html en utf 8 viewport content width device width,initial scale 1.0 document title head 思路 1.宣告乙個空字元 2.將需要去重字元,乙個乙個新增到空字串中 條件 s裡面沒有這個字元,就加進去 v...