很多同學會遇到python爬蟲得到的html亂碼的問題。其實這個問題搞清楚邏輯,就能夠解決。
一般爬蟲
import
點開html中的鏈結,看到亂碼了。
圖1:亂碼
2. 問題處理
①首先,在google中輸入電影「無名之輩」的鏈結(然後ctrl+u,檢視源**頁。
圖2:點開google瀏覽器的源**頁
②在源**第4行,找到charset=gb2312,說明這個網頁的字型是gb2312的格式。python預設字型是utf-8。轉碼!
③轉碼
import
加上轉碼一行,那麼html就正常了。
圖3:轉碼之後的爬蟲結果
3.結語
以上就是亂碼問題的處理。希望對大家有益~
html網頁亂碼
html亂碼原因與網頁亂碼解決方法,瀏覽器瀏覽網頁內容出現亂碼符合解決篇 html中文亂碼 造成html網頁亂碼原因主要是html源 內中文字內容與html編碼不同造成。但無論是哪種情況造成亂碼在網頁開始時候都需要設定網頁編碼。charset編碼設定 html網頁亂碼效果截圖 1 比如網頁源 是gb...
Python網頁爬蟲之中文亂碼
python是個好工具,但是也有其固有的一些缺點。最近在學習網頁爬蟲時就遇到了這樣一種問題,中文 爬取下來的內容往往中文顯示亂碼。看過我之前部落格的同學可能知道,之前爬取的乙個學校網頁就出現了這個問題,但是當時並沒有解決,這著實成了我乙個心病。這不,剛剛一解決就將這個方法公布與眾,大家一同分享。co...
Python網頁爬蟲之中文亂碼
python是個好工具,但是也有其固有的一些缺點。最近在學習網頁爬蟲時就遇到了這樣一種問題,中文 爬取下來的內容往往中文顯示亂碼。看過我之前部落格的同學可能知道,之前爬取的乙個學校網頁就出現了這個問題,但是當時並沒有解決,這著實成了我乙個心病。這不,剛剛一解決就將這個方法公布與眾,大家一同分享。co...