最近對爬蟲有點感興趣,打算用python寫爬蟲試試。記錄下學習過程中的所思所想以及遇到的一些有意思的問題。
持續更新中。。。
將爬取到的網頁解碼str=str.decode(『utf-8』),然後列印print(str)的時候會出現錯誤「unicodeencodeerror : 『gbk』 codec can』t encode character……」。在pycharm上面run的時候會出現這個問題,而在idle上面run的話卻可以正常列印出來。最後在【總結】python 2.x中常見字元編碼和解碼方面的錯誤及其解決辦法上找到了答案,這裡面對字串從輸入到輸出的過程有十分詳細的解釋。
其實一直到str=str.decode(『utf-8』)這一步都是正確的,已經把網頁成功的用utf-8解碼出來了,問題在於windows的cmd預設編碼為gbk,也就是說因為只能顯示gbk,所以系統會自動的在列印出來的時候吧utf-8變成gbk,而有些utf-8並不能簡單的變成gbk,因此會出現』gbk』 codec can』t encode character,這其實只是列印顯示出來的問題,程式本身並沒有錯,在預設編碼不是gbk的平台如idle上就可以正常顯示,其實在後面的內容中網頁的內容並不需要列印出來,所以這個問題也就不算問題了。
如果一定要在pycharm上面正確列印出來,可以str=str.decode(『utf-8』).encode(『gbk』,』ignore』).decode(『gbk』).還有乙個辦法就是修改設定讓windows cmd支援utf-8,具體方法參照這個在windows的cmd中如何設定支援utf-8編碼
爬蟲學習日記(一)
專案放到idea一直都跑不出起來,設定了module 各種source也沒有用,待解決。放到myecliese後,就可以跑了。需要解決的問題是 在stack裡面去掉selenium的log,保留invalidinput的log 剛開始我的做法是 直接不去丟擲這個exception 好的 我的做法有點...
爬蟲學習日記
由於之前沒有python基礎,能不能跟上還是很慌的,但還是得盡力 1.檢視網頁robots協議,了解爬取需要遵守的規則 2.使用url re bs4 對單一靜態或動態的介面資訊進行爬取 3.安裝scrapy 爬取 介面部分資訊 獲取書包搜尋介面的商品名稱和 import requests impor...
爬蟲學習日記(三)
之前做的task發現commit的時候出現點問題,失敗了,具體失敗的原因還不知道。而且cindy姐姐給我們講qa的時候,也跟我講了我做的有點問題,應該說是方向有點不對,郵件裡面東哥說的是要改stack裡面的資訊,但是其實cindy姐姐要的是改掉content裡面的東西,只要搜尋不到的船的資訊,這樣子...