經典亂碼錕斤拷

2021-08-29 21:49:44 字數 892 閱讀 2947

錕斤拷是什麼?我也是最近才搞明白的。

我考證了一下,這個亂碼的原因**相當經典。

unicode和老編碼體系的轉化過程中,肯定有一些字,用unicode是沒法表示的,unicode官方用了乙個佔位符來表示這些文字,這就是:u+fffd replacement character

那麼u+fffd的utf-8編碼出來,恰好是 '\xef\xbf\xbd'。

如果這個'\xef\xbf\xbd',重複多次,例如 '\xef\xbf\xbd\xef\xbf\xbd',然後放到gbk/cp936/gb2312/gb18030的環境中顯示的話

乙個漢字2個位元組,最終的結果就是:錕斤拷 哈哈。。。

python**:

>>> u'\ufffd'.encode('utf-8')*2

'\xef\xbf\xbd\xef\xbf\xbd'

>>>

>>> print u'\ufffd'.encode('utf-8')*2

錕斤拷例如這個招聘就非常經典:

單位性質: 外商獨資企業 所屬行業: 線纜

單位規模: 100 - 499人 註冊資金: 1299

聯 系 人: 錕斤拷錕斤拷 聯絡人職位: 錕斤拷錕斤拷

電子信箱: [email protected]

郵  編:

單位**:

單位介紹: 臺錕斤拷錕斤拷業錕斤拷臺錕斤拷錕斤拷錕僥碉拷f錕斤拷錕斤拷錕斤拷錕?錕斤拷錕斤拷/錕斤拷錕斤拷

招聘職位:錕斤拷錕斤拷 人數:20人

發布日期: 2007-07-17

聯絡人: 錕斤拷錕斤拷

編碼問題真是個***煩人的問題。例如:

最後我在wikipedia上開了乙個 錕斤拷 的頁面。瓦咔咔。。瓦咔咔。。。

兩個 錕斤拷 ?

以一首七言絕句作為開篇 手持兩把錕斤拷 口中疾呼燙燙燙 腳踏千朵屯屯屯 笑看萬物鍩鍩鍩 在上次石頭哥發的這篇文章中 你可能也會掉進這個簡單的 string 的坑,講述了因字元編碼問題而連續踩坑的經歷,文中有乙個神奇的字元 要弄清這個問題,還得先從編碼談起。比如大家所熟知的 ascii 編碼,規定了 ...

考據 「燙燙燙」與「錕斤拷」的原理

在程式設計師 上經常看到乙個段子 滿滿的都是淚啊 手持兩把錕斤拷,口中疾呼燙燙燙。解釋一下為什麼會是這兩個東西不是別的 棍斤拷亂碼 源於gbk字符集和unicode字符集之間的轉換問題。unicode和老編碼體系的轉化過程中,肯定有一些字,用unicode是沒法表示的,unicode官方用了乙個佔位...

寫給大忙人看的工作中的知識 錕斤拷問題

乙 嗨,你幫我個忙,今天領導說要我處理這個 可我看不懂這是啥玩意,你幫我瞧瞧。甲 哦,這是亂碼。乙 為什麼會出現亂碼呢?甲 說來話可長了 乙 快說!快說!甲 美國人發明電腦時,需要儲存字元,所以使用了乙個數字乙個字元的方法,有128個字元。乙 太少了。甲 嗯。確實少。它只有7個位元,當時有個1mb記...