爬取煎蛋網文章

2022-01-13 06:01:16 字數 1207 閱讀 3311

#

import os

import

requests

from bs4 import

beautifulsoup

r1 =requests.get(

url='

',#瀏覽器的資訊

headers=)#

r1_cookie_dict = r1.cookies.get_dict()

#去響應體中j解析我們想要的資料

soup = beautifulsoup(r1.text, '

html.parser')

#按照規則找名字: div標籤且id=content 找到匹配的第乙個

container = soup.find(name='

div', attrs=)

#去container找到所有的class=post f list-post的div標籤

div_list = container.find_all(name='

div',attrs=)

#迴圈所有的標籤

for tag in

div_list:

articles = tag.find(name='h2'

)

#如果為空就跳過

ifnot

articles:

continue

#找到class='indexs'的所有div標籤

summay = tag.find(name='

div', attrs=)

ifnot

summay:

continue

img_addr = tag.find(name='

img'

)

ifnot

img_addr:

continue

print('標題'

,articles.text)

print('

簡介------------------------------------

',summay.text)

print

(img_addr)

print(img_addr.get('

data-original'))

print('

----------------------------------------

')

爬蟲初嘗試 易車網文章url爬取

目標 news.bitauto.com 選擇單項頁面爬取 例如新車頁 在頁面右鍵選擇 檢查 找到目標位置 html body div 3 div div 1 div 3 div div h2 a 推薦使用xpath helper 可以直接複製xpath coding utf8 from seleni...

CSDN文章爬取

title csdn文章爬取 date 2019 06 09 13 17 26 tags 找到文章列表,進行文章爬取,提取到文章的url資訊。進行文章內容的解析,提取文章內容。儲存到本地。嘗試對文章樣式進行儲存 採用python語言來完成,使用pyquery庫進行爬取。article doc blo...

基於Scrapy爬取網頁文章

settings定義爬取的一些設定如下 coding utf 8 scrapy settings for jobbole project for simplicity,this file contains only settings considered important or commonly ...