目錄
一、安裝chardet
二、使用chardet
2.1對bytes檢測編碼
2.2對gbk編碼的中文檢測編碼
2.3對utf-8編碼檢測編碼
2.4對日文檢測編碼
字串編碼一直是令人非常頭疼的問題,尤其是我們在處理一些不規範的第三方網頁的時候。雖然python提供了unicode表示的str
和bytes
兩種資料型別,並且可以通過encode()
和decode()
方法轉換,但是,在不知道編碼的情況下,對bytes
做decode()
不好做。chardet這個第三方庫正好就派上了用場。用它來檢測編碼,簡單易用。
如果安裝了anaconda,chardet就已經可用了。否則,需要在命令列下通過pip安裝:
$ pip install chardet
如果遇到permission denied安裝失敗,**上sudo重試。
用chardet檢測編碼,只需要一行**:
>>> chardet.detect(b'hello, world!')
注意:檢測出的編碼是ascii
,注意到還有個confidence
字段,表示檢測的概率是1.0(即100%)。
>>> data = '離離原上草,一歲一枯榮'.encode('gbk')
>>> chardet.detect(data)
注意:檢測的編碼是gb2312
,注意到gbk是gb2312的超集,兩者是同一種編碼,檢測正確的概率是74%,language
字段指出的語言是'chinese'
>>> data = '離離原上草,一歲一枯榮'.encode('utf-8')
>>> chardet.detect(data)
>>> data = '最新の主要ニュース'.encode('euc-jp')
>>> chardet.detect(data)
總結:用chardet檢測編碼,使用簡單。獲取到編碼後,再轉換為str
Python常用第三方模組
requests kenneth reitz寫的最富盛名的http庫。每個python程式設計師都應該有它。wxpython python的乙個gui 圖形使用者介面 工具。pillow 它是pil python圖形庫 的乙個友好分支。對於使用者比pil更加友好,對於任何在圖形領域工作的人是必備的庫...
python淺學筆記13 常用第三方模組
pip install 影象處理 縮放 切片 旋轉 濾鏡 輸出文字 調色盤 imagedraw.draw image 繪圖 更好的訪問網路資源的方案,處理url資源特別方便 requests.get url,params,headers requests.post url,data post 上傳檔...
第三方模組
參考 第三方模組 requestsimport requests 對於帶引數的url,傳入乙個dict作為params引數 params 要傳入http header時,我們傳入乙個dict作為headers引數 請求中傳入cookie,只需準備乙個dict傳入cookies引數 my cookie...