需要使用url格式化拼接:
#page_num寫在for迴圈裡面,每次需要更新
format(url % page_num)
原因:寫入檔案後未關閉檔案!需要在結尾處加上fp.close()
#這是爬取58二手**的那個例子
fp =
open
('58二手**xa.txt'
,'w'
,encoding=
'utf-8'
)for li in li_list:
title = li.xpath(
".//h2[@class='title']/a/text()")[
0]house_num +=
1 fp.write(
str(house_num)
+'.'
+title+
'\n'')
fp.close(
)
其中,有兩點需要注意:
(1)fp.close()跟for迴圈在同一級!
(2)由於house_num是int型別,不能進行字串拼接,所以要使用str(house_num)轉換型別!
Python爬蟲學習
最近由於 需要,用python寫了爬蟲爬取資料。在這個過程中,認識到學習一門語言最好的辦法是動手,別無技巧。在動手程式設計的過程中,遇到了很多意想不到的問題,當然也學習了很多書本上不會講述的知識,感覺這才是真正的學習知識。在這個過程中,遇到的乙個問題讓我花費了很久時間,留下了很深的印象。擔心會隨著時...
Python學習 爬蟲
在搜尋python知識的時候一直看到爬蟲相關知識,感覺挺好玩的,打算簡單了解一下。1 找到伺服器主機,向伺服器發出乙個請求,伺服器經過解析之後,傳送給使用者的瀏覽器 html js css 等檔案,瀏覽器解析出來,使用者便可以看到形形色色的了。因此,使用者看到的網頁實質是由 html 構成的,爬蟲爬...
python爬蟲學習
例如列印當前時間 from datetime import datetime print datetime.now 或者import datetime print datetime.datetime.now html結構 html head body html head a useful page ...