1、首先檢視字串編碼
利用 chardet模組,pip安裝:pip install chardet
**:2、獲得字串的編碼方式:
>>>chardet.detect('你好')
>>>
3、import sys
reload(sys) [[[
from imp import reload
]]] #python3 需要這個
sys.setdefaultencoding()
sys.setdefaultencoding('utf-8')
4、在python3上 輸入以下**思考
import chardet
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
a = u'\xe5\xb0\x8f\xe4\xb8\x89'
print type(a)
print a
print a.encode('utf-8')
b = u'小三'
print type(b)
print b
print b.encode('utf-8')
c = '\xe5\xb0\x8f\xe4\xb8\x89'
print chardet.detect(c)
print type(c)
print c
來自
5、今天中文輸出問題 由python3 以上版本對中文更好的支援 解決,但發現python2下可以工作的包可能再python3上無法工作,如,ntlk中的乙個???,這個需要繼續研究
Python處理中文
用python寫了個從一堆中文微博中抽取電影票房資料的程式,處理中文編碼問題非常麻煩,有以下經驗 1,在正規表示式中的中文應該用 u x的形式,正規表示式字串還要以ur為字首 u表示unicode,r表示raw,即忽略c 形式的轉義字元 2,各種編碼都統一成utf8的時候世界終於清靜了 4,原始碼開...
python中文處理
1.多位元組問題必須要全部轉成unicode再處理,否則就會有問題,比如中文gbk編碼的 和珅 其中的珅的後半位元組和 的一樣的,所以在處理的時候會有問題,如下我們用re.split來分割 用正則分隔某個字串 def split str,patternlist unicodestr str.deco...
Python處理中文語言 讀取中文
本文解決問題 1 匯入中文txt文字,並轉換為unicode 2 匯入包含中文的py file 解決問題一 匯入中文txt文字,並轉換為unicode 1 unicode utf 8 簡單理解,unicode是 一種處理所有非英文語言的編碼方式,即將每個語言中的每個文字設定成不同的數字,避免造成混亂...