爬蟲學習日記一）

最近對爬蟲有點感興趣，打算用python寫爬蟲試試。記錄下學習過程中的所思所想以及遇到的一些有意思的問題。

持續更新中。。。

將爬取到的網頁解碼str=str.decode(『utf-8』)，然後列印print(str)的時候會出現錯誤「unicodeencodeerror : 『gbk』 codec can』t encode character……」。在pycharm上面run的時候會出現這個問題，而在idle上面run的話卻可以正常列印出來。最後在【總結】python 2.x中常見字元編碼和解碼方面的錯誤及其解決辦法上找到了答案，這裡面對字串從輸入到輸出的過程有十分詳細的解釋。

其實一直到str=str.decode(『utf-8』)這一步都是正確的，已經把網頁成功的用utf-8解碼出來了，問題在於windows的cmd預設編碼為gbk，也就是說因為只能顯示gbk，所以系統會自動的在列印出來的時候吧utf-8變成gbk，而有些utf-8並不能簡單的變成gbk，因此會出現』gbk』 codec can』t encode character，這其實只是列印顯示出來的問題，程式本身並沒有錯，在預設編碼不是gbk的平台如idle上就可以正常顯示，其實在後面的內容中網頁的內容並不需要列印出來，所以這個問題也就不算問題了。

如果一定要在pycharm上面正確列印出來，可以str=str.decode(『utf-8』).encode(『gbk』,』ignore』).decode(『gbk』).還有乙個辦法就是修改設定讓windows cmd支援utf-8，具體方法參照這個在windows的cmd中如何設定支援utf-8編碼

爬蟲學習日記一）

爬蟲學習日記（一）

爬蟲學習日記

爬蟲學習日記（三）

爬蟲學習日記 一）

爬蟲學習日記（一）

爬蟲學習日記

爬蟲學習日記（三）

相關推薦

爬蟲學習日記一）