字符集編碼 idea解決亂碼

字元編碼原理

ascii字符集

共收錄128個字元，包括空格、標點符號、數字、大小寫字母和一些不可見字元。由於總共才128個字元，所以可以使用1個位元組來進行編碼，我們看一些字元的編碼方式：

'l' -> 01001100（十六進製制：0x4c，十進位制：76） 'm'-> 01001101（十六進製制：0x4d，十進位制：77）

iso 8859-1字符集共收錄256個字元，是在ascii字符集的基礎上又擴充了128個西歐常用字元(包括德法兩國的字母)，也可以使用1個位元組來進行編碼。這個字符集也有乙個別名latin1。

gb2312字符集

收錄了漢字以及拉丁字母、希臘字母、日文平假名及片假名字母、俄語西里爾字母。其中收錄漢字6763個，其他文字元號682個。同時這種字符集又相容ascii字符集，所以在編碼方式上顯得有些奇怪：

這種表示乙個字元需要的位元組數可能不同的編碼方式稱為變長編碼方式。

比方說字串'愛u'，其中'愛'需要用2個位元組進行編碼，編碼後的十六進製制表示為0xb0ae，'u'需要用1個位元組進行編碼，編碼後的十六進製制表示為0x75，所以拼合起來就是0xb0ae75。

我們怎麼區分某個位元組代表乙個單獨的字元還是代表某個字元的一部分呢？別忘了ascii字符集只收錄128個字元，使用0～127就可以表示全部字元，所以如果某個位元組是在0～127之內的，就意味著乙個位元組代表乙個單獨的字元，否則就是兩個位元組代表乙個單獨的字元。

gbk字符集

gbk字符集只是在收錄字元範圍上對gb2312字符集作了擴充，編碼方式上相容gb2312。

unicode字符集

收錄地球上能想到的所有字元，而且還在不斷擴充。這種字符集相容ascii字符集，採用變長編碼方式，

unicode字符集有多種編碼方案，可以採用utf8、utf16、utf32這幾種編碼方案，utf8使用1～4個位元組編碼乙個字元，utf16使用2個或4個位元組編碼乙個字元，utf32使用4個位元組編碼乙個字元。

對於同乙個字元，不同字符集也可能有不同的編碼方式。比如對於漢字』我』來說，ascii字符集中根本沒有收錄這個字元，utf8和gb2312字符集對漢字我的編碼方式如下：

utf8編碼： 111001101000100010010001(3 個位元組，十六進製制表示是： 0xe68891 )gb2312編碼： 1011000010101110(2 個位元組，十六進製制表示是： 0xb0ae

)

在下面兩個檔案中最後一行加上 -dfile.encoding=utf-8