有時候乙個檔案中的文字會用gbk或utf-8去解碼,獲取其中的內容,但是有些utf-8能表示的字元,gbk無法表示,所以這裡先把gbk不能表示的字元去除,再將文字解碼成utf-8後儲存為utf-8字符集格式。
如圖:
原理就是利用了encode函式的errors選項,設定errors=『ignore』,略過錯誤字元
content=u'\uf0b7\ufeff\uf052\uf0a3漢字'
print
(content)
print
(content.encode(
'utf-8'))
print
(content.encode(
'gbk'
,errors=
'ignore'
).decode(
'gbk'
).encode(
'utf-8'
).decode(
'utf-8'
))
mysql支援gbk字符集
在檔案 my.ini 或my.cnf 中相應位置加入 default character set gbk client default character set gbk mysqld default character set gbk 修改結束以後,儲存,然後使用客戶端登入 mysql u roo...
字符集GBK公升級UTF8
在生產環境中,資料庫字符集因為各種原因需要公升級,比如為了支援漢字,從latin1字符集公升級到gbk,後面為了支援多個語言文字,需要將gbk公升級到utf8等。遷移過程網上有很多,我今天主要想講下字符集轉換後,可能對業務產生的影響,我以gbk轉換到utf8為例說明。主要有兩點 漢字在gbk編碼中佔...
oracle utf8字符集轉gbk
近日有同事在外面部署系統時,安裝資料庫時可能選擇了utf 8編碼格式,匯入insert語句時,乙個漢字被認為三個位元組,這是不行的。結合上網搜到的資料,將oracle資料庫的編碼格式,從utf 8改為gbk後,一切正常了。附 plsql執行記錄 c users administrator sqlpl...