用了一天時間重新看了一遍python的基本語法,晚上就寫了兩個爬湯站小的指令碼,什麼就不細說了。
現在重看python,思路跟當初真的完全不一樣了,好多當初不懂的現在也全懂了,比如類的問題和命令列操作,這種今非昔比的感覺真爽。
**因為很簡單就不放了吧,畢竟不是當初剛入門的時候了,說說思路。
也就是urllib.urlopen(url).read(),re.findall(regex, str), urllib.urlretrieve(url, file)這麼三個函式。
存檔頁顯示的都是縮圖,首先翻頁面原始碼,找到這些縮圖的標籤寫出正則式,像這樣:
r'data-imageurl="(http.*\.jpg)"'但是有個問題,存檔頁用了瀑布流,頁面滾到底部的時候才會載入更多,用火狐的偵錯程式看了一下,貌似是用js做的,於是不知道該怎麼弄了,好在這個部落格每天更新得也不是很多,所以也沒動力研究其他解決辦法。雖然還是有幾個想法的。
還是多虧湯站的講究,逐頁爬取就更容易了,因為每頁的url是這樣的:
改成for迴圈還可以控制重試的次數。
按理說應該下完每張圖都休眠一會。
畢竟人家也怕自己伺服器被爬死。
體諒一下。
情侶簽名 我愛他,他愛她,他不愛我
我用一輩子去贖你,命你永遠帶在我身邊 我用生命去愛你,你要用一輩子向我補償 你就是空氣 沒有你我便會缺氧。你就是心臟 沒有你我便會死去。我們的愛情不會出現一點 我們的愛情永遠會長長久久的 情侶簽名 在心底慢慢描繪出我曾經最狼狽的身影。情侶簽名 在心底輕輕勾勒出你曾經最清晰得模樣。你的姓氏,將來會成為...
愛豆在北京開演唱會,我在杭州要如何與他實時互動?
如果你的愛豆在北京舉辦演唱會,並做4k高畫質直播 伺服器在上海 演唱會上專門為粉絲設定了一些互動環節,例如 送簽名照 答題送愛豆周邊等。那麼遍布在全國各地的觀眾該如何與他實時互動?很顯然,因為網速 頻寬等問題限制,各地觀眾的網路時延會存在明顯差異。如果你在新疆 等偏遠地區,很有可能當你看到愛豆提問的...