爬蟲流程複習3

111.requests.get 方法的流程
r = requests.get('
').content.decode('
utf-8')
從狀態碼到 二進位製碼到 utf-8編碼
112.對 soup 物件進行美化
html =soup.prettify()
113.將內容 string 化
html.xpath(
'string(//*[@id="cnblogs_post_body"])')
114.獲取屬性
soup.p[
'name']
115.巢狀選擇
soup.head.title.string
116.獲取父節點和祖孫節點
soup.a.parent
list(enumerate(soup.a.parents))
117.獲取兄弟節點
soup.a.next_siblings
list(enumerate(soup.a.next_siblings))
soup.a.previous_siblings
list(enumerate(soup.a.previous_siblings))
118.按照特定值查詢標籤
查詢 id 為 list-1的標籤
soup.find_all(attrs=)
soup.find_all(id='
list-1')
119.返回父節點
find_parents()返回所有祖先節點
find_parent()返回直接父節點
120.返回後面兄弟節點
find_next_siblings()返回後面所有兄弟節點
find_next_sibling()返回後面第乙個兄弟節點。
121.返回前面兄弟節點
find_previous_siblings()返回前面所有兄弟節點
find_previous_sibling()返回前面第乙個兄弟節點。
122.返回節點後符合條件的節點
find_all_next()返回節點後所有符合條件的節點
find_next()返回第乙個符合條件的節點
123.返回節點前符合條件的節點
find_all_previous()返回節點前所有符合條件的節點
find_previous()返回第乙個符合條件的節點
124.requests 的請求方式
requests.post(url)
requests.put(url)
requests.delete(url)
requests.head(url)
requests.options(url)
125.get請求
response =requests.get(url)
print
(response.text)
126.解析 json
response.json()
json.loads(response.text)
127.傳送 post 請求
response = requests.post(url, data=data, headers=headers)
response.json()
128.檔案上傳
在 post 方法內部新增引數 files 字典引數
import
requests
files = 
response = requests.post("
", files=files)
print
(response.text)
129.獲取 cookie
response.cookie
返回值是 字典物件
for key, value in
response.cookies.items():
print(key + '
=' +value)
130.模擬登入
requests.get(
'')response = requests.get('
')131.帶有 session 的登入
s =requests.session()
s.get(
'')response = s.get('
')132.證書驗證
urllib3.disable_warnings()
response = requests.get('
', verify=false)
response = requests.get('
', cert=('
/path/server.crt
', '
/path/key'))
133.超時設定
from requests.exceptions import
readtimeout
response = requests.get("
", timeout = 0.5)
response = urllib.request.urlopen(url, timeout=1)
134.認證設定
))135.異常處理
超時 readtimeout
連線出錯 connectionerror
錯誤 requestexception
136.url 解析
137.合併 url
				爬蟲流程複習
爬取資料之後 新聞聚合閱讀器 最漂亮美女網 圖書 對比網 python技術文章大全 設定爬蟲終端 url 管理器判斷爬取網頁鏈結 流程 排程器詢問 url 管理器,是否存在要爬取的 url url 管理器返回 是或否 排程器 從 url 管理器中 取出乙個 url url 管理器 將 url 傳遞給...
				考研複習流程
這個階段就是打基礎 打基礎 打基礎。不要想著去做試卷刷題，先把基礎知識點掌握好。英語多背單詞多閱讀，數學學好知識點，做基礎鞏固習題，政治大致過一遍，對理解性的知識點先理解，不用急著背誦。專業課也是看書為主。6月底，大家需要過一遍基礎，結束第一輪複習。可以考慮全年營或者也有體驗營可以了解下。暑假這一段...
				爬蟲學習 爬蟲基本流程
標籤 空格分隔 資料探勘 爬蟲 1 發起請求 2 獲取相應內容 3 解析網路內容 4 儲存資料 結構化儲存 user server request server user response 1 請求方式 get,post,head,put,delete 2 get和post的區別 請求的引數包含的部...
爬蟲流程複習3

爬蟲流程複習

考研複習流程

爬蟲學習 爬蟲基本流程

相關推薦

爬蟲學習爬蟲基本流程