url->子網域名稱->具體文章
爬取**需要策略
1.畫出**url結構圖
鏈結是有環路的 所有url都向下爬取 陷入死迴圈 無限返回主頁 取第乙個url
2.url去重
爬取晚後把url放到爬起歷史中 下一次提取到url出現再歷史爬取中 直接跳過 進入第二個url中
不會形成環路
abc
defg
hi一步一步往下走 走完了退回來
(優先左邊)a-
>b-
>d-
>e-
>i-
>c-
>f-
>g-
>
hscrapy預設使用深度優先,深度優先用遞迴實現
遞迴不跳出 一直遞迴 遞迴過深 棧會溢位
同上一模組樹
先訪問兄弟節點,再訪問子節點
第一層節點訪問完 訪問第二層節點
廣度優先也叫做按層次遍歷
也叫寬度優先演算法a-
>b-
>c-
>d-
>e-
>f-
>g-
>h-
>
i廣度優先演算法通過佇列實現
python爬蟲第二天
時間字串轉換 contents獲取內容 strftime轉化時間格式 內文的提取 實參位置用空格分隔 加一級的標籤 import requests import json jd json.loads comments.text.strip 需剔除部分 抓取內文資訊方法寫成函式 commenturl ...
Python爬蟲第二天
python爬蟲第二天 超時設定 有時候訪問網頁時長時間未響應,系統就會判斷網頁超時,無法開啟網頁。如果需要自己設定超時時間則 通過urlopen 開啟網頁時使用timeout欄位設定 import urllib.request for i in range 1,100 迴圈99次 try file...
python第二天 網路爬蟲
學python的第二天,學習來自於 coding cp936 import urllib2 import re import sys 獲取當前系統編碼格式 type sys.getfilesystemencoding j 0 url content urllib2.urlopen url read ...