python 去除gbk字符集以外的字元

2021-10-25 07:20:36 字數 726 閱讀 5887

有時候乙個檔案中的文字會用gbk或utf-8去解碼,獲取其中的內容,但是有些utf-8能表示的字元,gbk無法表示,所以這裡先把gbk不能表示的字元去除,再將文字解碼成utf-8後儲存為utf-8字符集格式。

如圖:

原理就是利用了encode函式的errors選項,設定errors=『ignore』,略過錯誤字元

content=u'\uf0b7\ufeff\uf052\uf0a3漢字'

print

(content)

print

(content.encode(

'utf-8'))

print

(content.encode(

'gbk'

,errors=

'ignore'

).decode(

'gbk'

).encode(

'utf-8'

).decode(

'utf-8'

))

mysql支援gbk字符集

在檔案 my.ini 或my.cnf 中相應位置加入 default character set gbk client default character set gbk mysqld default character set gbk 修改結束以後,儲存,然後使用客戶端登入 mysql u roo...

字符集GBK公升級UTF8

在生產環境中,資料庫字符集因為各種原因需要公升級,比如為了支援漢字,從latin1字符集公升級到gbk,後面為了支援多個語言文字,需要將gbk公升級到utf8等。遷移過程網上有很多,我今天主要想講下字符集轉換後,可能對業務產生的影響,我以gbk轉換到utf8為例說明。主要有兩點 漢字在gbk編碼中佔...

oracle utf8字符集轉gbk

近日有同事在外面部署系統時,安裝資料庫時可能選擇了utf 8編碼格式,匯入insert語句時,乙個漢字被認為三個位元組,這是不行的。結合上網搜到的資料,將oracle資料庫的編碼格式,從utf 8改為gbk後,一切正常了。附 plsql執行記錄 c users administrator sqlpl...