分析**的**結構:如**,需要採集的**取,建設使用谷歌瀏覽器
如圖:
解釋:1.為**欄,分析**的相同部分及不同部分
2.為按f12檢視原始碼,為需要採集的**
from reptiletest import qu
url=""
for i in range(1,423):
if i==1:
url="/?m=vod-index.html"
else:
url="/?m=vod-index-pg-"+str(i)+".html"
qu(url,i)
import urllib.request
from requl import requ
def qu(jia,ii):
print("正在獲取第:" + str(ii) + "頁的電影資訊")
url = ""+jia
req = urllib.request.request(url)
res = urllib.request.urlopen(req)
html = res.read().decode("utf-8", 'ignore')
# print(html)
requ(html)
print("獲取第:"+str(ii)+"頁的電影資訊結束")
import urllib.request
from bs4 import beautifulsoup
def requ(html):
web = beautifulsoup(html, features="html.parser")
# print("開始抓取")
daima = web.select("ul > li > span > a")
for h in daima:
# 通過主頁進入某個電影的資訊頁面
url1 = "/" + h.get("href")
req1 = urllib.request.request(url1)
res1 = urllib.request.urlopen(req1)
html1 = res1.read().decode("utf-8", 'ignore')
web1 = beautifulsoup(html1, features="html.parser")
# daima1 = web1.select("div[class=vodinfo]")
# print(daima1)
# 獲取電影
daima1 = web1.select("img[class=lazy]")
for dao in daima1:
dao.get("src")
# 獲取電影名稱
daima1 = web1.select("div[class=vodh] > h2")
for dai in daima1:
print(dai.get_text())
daima1 = web1.select("div[class=vodh] > span")
for dai in daima1:
print(dai.get_text())
# 獲取評分
daima1 = web1.select("div[class=vodh] > label")
for dai in daima1:
print(dai.get_text())
# 獲取別名
daima1 = web1.select("div[class=vodinfobox] > ul > li:nth-of-type(1) > span")
for dai in daima1:
print(dai.get_text())
# 獲取導演
daima1 = web1.select("div[class=vodinfobox] > ul > li:nth-of-type(2) > span")
for dai in daima1:
print(dai.get_text())
# 獲取主演
daima1 = web1.select("div[class=vodinfobox] > ul > li:nth-of-type(3) > span")
for dai in daima1:
print(dai.get_text())
# 獲取電影型別
daima1 = web1.select("div[class=vodinfobox] > ul > li:nth-of-type(4) > span")
for dai in daima1:
print(dai.get_text())
# ****
#
抓取結束:
用 Python 編寫網路爬蟲 筆記
每個 都應該提供 api,然而這是不可能的 即使提供了 api,往往也會限速,不如自己找介面 robots.txt 中可能會有陷阱 sitemap 中可能提供了重要的鏈結 乙個簡便方法是使用 site example.com 查詢,然而這種方法對於大戰不適用 builtwith 模組 pip ins...
Python網路爬蟲
找到url,也就是相當於入口,找到你要爬取的鏈結,獲取整個頁面資料 使用正規表示式,匹配到你想要爬取的內容,這裡使用的主要是正規表示式和一些常用的開源庫 最後一步就是寫入文字以及儲存問題了,如文字檔案 資料庫 coding utf 8 是用來指定檔案編碼為utf 8 from urllib impo...
python網路爬蟲
這篇部落格簡單的實現了乙個網路爬蟲指令碼,所謂網路爬蟲就是從 某乙個頁面 通常是首頁 開始,讀取網頁的內容,找到在網頁中的其它鏈結位址,然後通過這些鏈結位址尋找下乙個網頁,這樣一直迴圈下去,直到把這個 所有的網頁都抓取完為止。下面就是乙個簡單地網路爬蟲程式 note 這個命令的意思是,從爬去尋找關鍵...