庫函式檢視方法:
例如在python中輸入help(requests.get)檢視
request庫:
r=request.get(url,params,**kwargs)
等價於requests.request(『get』,url,**kwargs)
**kwargs//12個控制訪問方法
params:字典或位元組序列,作為引數加入url
構造乙個向伺服器請求資源的requests物件
返回乙個包含伺服器資源的response物件
response物件:
r.status_code http請求的返回狀態,int
r.text http響應內容的字串形式,str
r.content http響應內容的二進位制形式,byte
beautifulsoup庫:
from bs4 import beautifulsoup
soup=beautifulsoup(r.text,「html.parser」)
data
』返回bs4物件
beautifulsoup類的基本元素
tag=soup.a.parent//a標籤的父親
tag.name //名字,str
tag.attar //字典,dict
tag.string //非屬性字串,str
tag.next_sibling //下乙個並行節點標籤
其中tag() == tag.find_all()
re庫:
正規表示式常用符號
其他:join() 方法用於將序列中的元素以指定的字元連線生成乙個新的字串。
seq = (「a」, 「b」, 「c」); # 字串序列
print 『-』.join( seq );
–>a-b-c
str.split()通過指定分隔符對字串進行切片,返回list列表
檔案讀寫:
f=open(fpath,『w』)
print(arrivetime,file=f)
f.close()
Python筆記 爬蟲
用到的庫 urllib。在python3.x中 urlretrieve函式也在urllib.request下,因此只需要匯入request即可。from urllib import request基本的思路是 用request.urlopen 開啟網頁 url.read decode 得到網頁原始碼...
Python爬蟲筆記
import requests 匯入requests模組 1.傳送請求 import requests r requests.get 2.定製headers 這種情況適用於爬取返回的結果出現 抱歉 無法訪問 等字眼時,這時需要模擬乙個介面伺服器自行爬取的狀態 import requests r re...
Python 爬蟲筆記
requests scrapy 兩個解析 html 文件的有力工具 lxml beautifulsoup4,一切暴露在網際網路中的資料,都不是絕對安全的,但絕對是需要費腦筋才需要得到的,爬蟲很簡單學,真正難的是反爬。requests 模組常用方法 單次請求 每傳送一次請求,就需要呼叫一次 多次請求 ...