0412python中文處理小記

2021-07-11 03:57:57 字數 867 閱讀 7851

1、首先檢視字串編碼

利用 chardet模組,pip安裝:pip install chardet

**:2、獲得字串的編碼方式:

>>>chardet.detect('你好')

>>> 

3、import sys

reload(sys)   [[[

from imp import reload
]]]  #python3 需要這個

sys.setdefaultencoding()

sys.setdefaultencoding('utf-8')

4、在python3上 輸入以下**思考

import chardet

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

a = u'\xe5\xb0\x8f\xe4\xb8\x89'

print type(a)

print a

print a.encode('utf-8')

b = u'小三'

print type(b)

print b

print b.encode('utf-8')

c = '\xe5\xb0\x8f\xe4\xb8\x89'

print chardet.detect(c)

print type(c)

print c

來自

5、今天中文輸出問題 由python3 以上版本對中文更好的支援 解決,但發現python2下可以工作的包可能再python3上無法工作,如,ntlk中的乙個???,這個需要繼續研究

Python處理中文

用python寫了個從一堆中文微博中抽取電影票房資料的程式,處理中文編碼問題非常麻煩,有以下經驗 1,在正規表示式中的中文應該用 u x的形式,正規表示式字串還要以ur為字首 u表示unicode,r表示raw,即忽略c 形式的轉義字元 2,各種編碼都統一成utf8的時候世界終於清靜了 4,原始碼開...

python中文處理

1.多位元組問題必須要全部轉成unicode再處理,否則就會有問題,比如中文gbk編碼的 和珅 其中的珅的後半位元組和 的一樣的,所以在處理的時候會有問題,如下我們用re.split來分割 用正則分隔某個字串 def split str,patternlist unicodestr str.deco...

Python處理中文語言 讀取中文

本文解決問題 1 匯入中文txt文字,並轉換為unicode 2 匯入包含中文的py file 解決問題一 匯入中文txt文字,並轉換為unicode 1 unicode utf 8 簡單理解,unicode是 一種處理所有非英文語言的編碼方式,即將每個語言中的每個文字設定成不同的數字,避免造成混亂...