#import os
import
requests
from bs4 import
beautifulsoup
r1 =requests.get(
url='
',#瀏覽器的資訊
headers=)#
r1_cookie_dict = r1.cookies.get_dict()
#去響應體中j解析我們想要的資料
soup = beautifulsoup(r1.text, '
html.parser')
#按照規則找名字: div標籤且id=content 找到匹配的第乙個
container = soup.find(name='
div', attrs=)
#去container找到所有的class=post f list-post的div標籤
div_list = container.find_all(name='
div',attrs=)
#迴圈所有的標籤
for tag in
div_list:
articles = tag.find(name='h2'
)
#如果為空就跳過
ifnot
articles:
continue
#找到class='indexs'的所有div標籤
summay = tag.find(name='
div', attrs=)
ifnot
summay:
continue
img_addr = tag.find(name='
img'
)
ifnot
img_addr:
continue
print('標題'
,articles.text)
print('
簡介------------------------------------
',summay.text)
(img_addr)
print(img_addr.get('
data-original'))
print('
----------------------------------------
')
爬蟲初嘗試 易車網文章url爬取
目標 news.bitauto.com 選擇單項頁面爬取 例如新車頁 在頁面右鍵選擇 檢查 找到目標位置 html body div 3 div div 1 div 3 div div h2 a 推薦使用xpath helper 可以直接複製xpath coding utf8 from seleni...
CSDN文章爬取
title csdn文章爬取 date 2019 06 09 13 17 26 tags 找到文章列表,進行文章爬取,提取到文章的url資訊。進行文章內容的解析,提取文章內容。儲存到本地。嘗試對文章樣式進行儲存 採用python語言來完成,使用pyquery庫進行爬取。article doc blo...
基於Scrapy爬取網頁文章
settings定義爬取的一些設定如下 coding utf 8 scrapy settings for jobbole project for simplicity,this file contains only settings considered important or commonly ...