錕斤拷是什麼?我也是最近才搞明白的。
我考證了一下,這個亂碼的原因**相當經典。
unicode和老編碼體系的轉化過程中,肯定有一些字,用unicode是沒法表示的,unicode官方用了乙個佔位符來表示這些文字,這就是:u+fffd replacement character
那麼u+fffd的utf-8編碼出來,恰好是 '\xef\xbf\xbd'。
如果這個'\xef\xbf\xbd',重複多次,例如 '\xef\xbf\xbd\xef\xbf\xbd',然後放到gbk/cp936/gb2312/gb18030的環境中顯示的話
乙個漢字2個位元組,最終的結果就是:錕斤拷 哈哈。。。
python**:
>>> u'\ufffd'.encode('utf-8')*2
'\xef\xbf\xbd\xef\xbf\xbd'
>>>
>>> print u'\ufffd'.encode('utf-8')*2
錕斤拷例如這個招聘就非常經典:
單位性質: 外商獨資企業 所屬行業: 線纜
單位規模: 100 - 499人 註冊資金: 1299
聯 系 人: 錕斤拷錕斤拷 聯絡人職位: 錕斤拷錕斤拷
電子信箱: [email protected]
郵 編:
單位**:
單位介紹: 臺錕斤拷錕斤拷業錕斤拷臺錕斤拷錕斤拷錕僥碉拷f錕斤拷錕斤拷錕斤拷錕?錕斤拷錕斤拷/錕斤拷錕斤拷
招聘職位:錕斤拷錕斤拷 人數:20人
發布日期: 2007-07-17
聯絡人: 錕斤拷錕斤拷
編碼問題真是個***煩人的問題。例如:
最後我在wikipedia上開了乙個 錕斤拷 的頁面。瓦咔咔。。瓦咔咔。。。
兩個 錕斤拷 ?
以一首七言絕句作為開篇 手持兩把錕斤拷 口中疾呼燙燙燙 腳踏千朵屯屯屯 笑看萬物鍩鍩鍩 在上次石頭哥發的這篇文章中 你可能也會掉進這個簡單的 string 的坑,講述了因字元編碼問題而連續踩坑的經歷,文中有乙個神奇的字元 要弄清這個問題,還得先從編碼談起。比如大家所熟知的 ascii 編碼,規定了 ...
考據 「燙燙燙」與「錕斤拷」的原理
在程式設計師 上經常看到乙個段子 滿滿的都是淚啊 手持兩把錕斤拷,口中疾呼燙燙燙。解釋一下為什麼會是這兩個東西不是別的 棍斤拷亂碼 源於gbk字符集和unicode字符集之間的轉換問題。unicode和老編碼體系的轉化過程中,肯定有一些字,用unicode是沒法表示的,unicode官方用了乙個佔位...
寫給大忙人看的工作中的知識 錕斤拷問題
乙 嗨,你幫我個忙,今天領導說要我處理這個 可我看不懂這是啥玩意,你幫我瞧瞧。甲 哦,這是亂碼。乙 為什麼會出現亂碼呢?甲 說來話可長了 乙 快說!快說!甲 美國人發明電腦時,需要儲存字元,所以使用了乙個數字乙個字元的方法,有128個字元。乙 太少了。甲 嗯。確實少。它只有7個位元,當時有個1mb記...