urllib 或 requests
re_01 = r''#大圖的
pat = re.compile(re_01)# 建立乙個正規表示式的模板
imgurls = re.findall(pat,data);# 開始匹配
print(len(imgurls), imgurls)
i = 0
for imgurl in imgurls:
i+=1;
get_data_img(str(data))#強制型別轉換將複雜html文件轉換成乙個複雜的樹形結構,
.test或.string返回乙個標籤的內容
eg:soup.div['title']獲取div標籤裡的title屬性的內容
python爬蟲基礎
一 什麼是爬蟲 通常爬蟲是從某個 的某個頁面開始,爬取這個頁面的內容,找到網頁中的其他鏈結位址,然後從這個位址爬到下乙個頁面,這樣一直不停的爬下去,進去批量的抓取資訊。那麼,我們可以看出網路爬蟲就是乙個不停爬取網頁抓取資訊的程式。二 爬蟲的基本流程 1,發起請求 向目標站點傳送乙個requests請...
python爬蟲基礎
爬蟲 爬蟲,全稱網路爬蟲,指按照一定的規則 模擬瀏覽器人工登入網頁的方式 自動抓取網路資訊資料的程式。簡單的說,就是將瀏覽器上網所能看到頁面上的內容通過爬蟲程式自動獲取下來,並進行儲存。爬蟲其實就是乙個程式自動收集獲取指定網路資料資訊的過程,網路資料資訊量十分龐大,人工獲取無法完成,這時就需要爬蟲來...
Python 爬蟲基礎
by 小?post請求 cookies session beautifulsoup庫 scrapy框架 import requests response requests.get 或者response requests.request get import requests kw headers p...