爬蟲入門到放棄 三 爬取格言網並儲存到資料庫

2021-09-04 02:05:38 字數 1558 閱讀 8031

# -*- coding:utf-8 -*-

from bs4 import beautifulsoup

import requests

import pymysql

#定義目標**url

url=''

# #編寫模擬瀏覽器獲取

'accept':'text/html;q=0.9,*/*;q=0.8',

'accept-charset':'iso-8859-1,utf-8;q=0.7,*;q=0.3',

'accept-encoding':'gzip',

'connection':'close',

'referer':none #注意如果依然不能抓取的話,這裡可以設定抓取**的host

}html=requests.get(url,headers=headers,).content.decode('gbk')

#建立beautifulsoup物件

soup=beautifulsoup(html,'lxml')

#將html的例項轉換成unicode編碼,列印soup物件內容,格式化輸出.

dd_div_list = soup.find_all()

#找出soup中所有的dd標籤寫成列表

for dd_div in dd_div_list:

#遍歷獲得每個dd標籤

li_div_list=dd_div.find_all()

#找出dd_div中的li標籤

for li_div in li_div_list:

#遍歷獲取每個li標籤

a_div_list=li_div.find_all()

#找出li_div標籤中的a標籤

for a_div in a_div_list:

#遍歷出a標籤

geyan_urls=url+a_div["href"]

#找出a標籤href拼接得到詳情頁的url

geyan_name=a_div["title"]

#定義a標籤的title為名字

conn = pymysql.connect(host='127.0.0.1', port=3306, db='geyan', user='root', passwd='root')

#定義資料庫

with conn.cursor() as cursor:

sql = 'insert into geyan_xiangqing(name,urls) values (%s,%s)'

#寫原生sql語句

cursor.execute(sql,(geyan_name,geyan_urls))

#插入資料

conn.commit()

#呼叫資料庫

print(geyan_urls)

#輸出url

print(geyan_name)

#輸出名字

詳情如下:

雖然寫的不正規我也會多多改正,並且這個資料量較少.

scrapy爬取資料並儲存到文字

1.scrapy專案結構如下 2.開啟spidler目錄下的duba.py檔案,如下 這個是根據豆瓣一部分頁面獲取的熱門話題內容,有6條資料 coding utf 8 import scrapy from scrapydemo.items import scrapydemoitem from lxm...

python爬取網頁資料到儲存到csv

目錄 爬取乙個 將 的資料儲存到csv中。匯入包 import requests import parsel import csv 設定csv檔案格式 設計未來資料的儲存形式。開啟檔案 f open whxixi.csv mode a encoding utf 8 newline 檔案列名 csv ...

Python爬取網路資料,並儲存到資料庫

import pymysql from bs4 import beautifulsoup from selenium import webdriver 這是防止頻繁請求網頁而被斷開連線 driver webdriver.phantomjs 這是煎蛋網的 那個page煎蛋網上是不固定的,所以,隨便取就...