手寫爬取靜態頁面汽車之家

scrapy寫多了,手寫爬蟲有點生疏,今天來回顧手寫爬取靜態頁面,以便日後做筆記用,我今天爬取的是汽車之家網頁,

第一步:匯入requests和bs4

import requests

from bs4 import beautifulsoup

第三步:解析頁面,在這裡我們用的beautifulsoup和lxml來解析頁面,首先定義乙個soup物件,然後通過find去完成解析操作,**如下

soup = beautifulsoup(response.text,'lxml')

div = soup.find(name='div',id='auto-channel-lazyload-article')


li_list = div.find_all(name='li') 
for li in li_list: 
h3 = li.find(name='h3') 
if not h3: 
continue

# print(h3.text)

p = li.find(name='p')


a = li.find('a') 
print(a.get('href')) 
print(p.text)

print('-'*30)

爬取汽車之家

爬汽車之家新聞爬取汽車之家新聞 import requests 向汽車之家傳送get請求，獲取到頁面 ret requests.get print ret.text 用bs4解析 from bs4 import beautifulsoup 例項化得到物件，傳入要解析的文字，解析器 html.par...

PYTHON爬取汽車之家資料

使用知識使用說明源 usr bin env python coding utf 8 time 2020 1 16 15 34 author wsx site file cars.py software pycharm import json from multiprocessing import...

Python練習 scrapy 爬取汽車之家文章

autohome.py spider檔案 coding utf 8 import scrapy from autohome.items import autohomeitem class autohomespider scrapy.spider name autohome allowed domai...

手寫爬取靜態頁面汽車之家

爬取汽車之家

PYTHON爬取汽車之家資料

Python練習 scrapy 爬取汽車之家文章

相關推薦