爬取煎蛋網文章

#
import os
import
requests
from bs4 import
beautifulsoup
r1 =requests.get(
url='
',#瀏覽器的資訊
headers=)#
r1_cookie_dict = r1.cookies.get_dict()
#去響應體中j解析我們想要的資料
soup = beautifulsoup(r1.text, '
html.parser')
#按照規則找名字： div標籤且id=content 找到匹配的第乙個
container = soup.find(name='
div', attrs=)
#去container找到所有的class=post f list-post的div標籤
div_list = container.find_all(name='
div',attrs=)
#迴圈所有的標籤
for tag in
div_list:
articles = tag.find(name='h2'
)    
#如果為空就跳過
ifnot
articles:
continue
#找到class='indexs'的所有div標籤
summay = tag.find(name='
div', attrs=)
ifnot
summay:
continue
img_addr = tag.find(name='
img'
)    
ifnot
img_addr:
continue
print('標題'
,articles.text)
print('
簡介------------------------------------
',summay.text)
print
(img_addr)
print(img_addr.get('
data-original'))
print('
----------------------------------------
')

爬蟲初嘗試易車網文章url爬取

目標 news.bitauto.com 選擇單項頁面爬取例如新車頁在頁面右鍵選擇檢查找到目標位置 html body div 3 div div 1 div 3 div div h2 a 推薦使用xpath helper 可以直接複製xpath coding utf8 from seleni...

CSDN文章爬取

title csdn文章爬取 date 2019 06 09 13 17 26 tags 找到文章列表，進行文章爬取，提取到文章的url資訊。進行文章內容的解析，提取文章內容。儲存到本地。嘗試對文章樣式進行儲存採用python語言來完成，使用pyquery庫進行爬取。article doc blo...

基於Scrapy爬取網頁文章

settings定義爬取的一些設定如下 coding utf 8 scrapy settings for jobbole project for simplicity,this file contains only settings considered important or commonly ...

爬取煎蛋網文章

爬蟲初嘗試 易車網文章url爬取

CSDN文章爬取

基於Scrapy爬取網頁文章

相關推薦

爬蟲初嘗試易車網文章url爬取