# -*- coding:utf-8 -*-
from bs4 import beautifulsoup
import requests
import pymysql
#定義目標**url
url=''
# #編寫模擬瀏覽器獲取
'accept':'text/html;q=0.9,*/*;q=0.8',
'accept-charset':'iso-8859-1,utf-8;q=0.7,*;q=0.3',
'accept-encoding':'gzip',
'connection':'close',
'referer':none #注意如果依然不能抓取的話,這裡可以設定抓取**的host
}html=requests.get(url,headers=headers,).content.decode('gbk')
#建立beautifulsoup物件
soup=beautifulsoup(html,'lxml')
#將html的例項轉換成unicode編碼,列印soup物件內容,格式化輸出.
dd_div_list = soup.find_all()
#找出soup中所有的dd標籤寫成列表
for dd_div in dd_div_list:
#遍歷獲得每個dd標籤
li_div_list=dd_div.find_all()
#找出dd_div中的li標籤
for li_div in li_div_list:
#遍歷獲取每個li標籤
a_div_list=li_div.find_all()
#找出li_div標籤中的a標籤
for a_div in a_div_list:
#遍歷出a標籤
geyan_urls=url+a_div["href"]
#找出a標籤href拼接得到詳情頁的url
geyan_name=a_div["title"]
#定義a標籤的title為名字
conn = pymysql.connect(host='127.0.0.1', port=3306, db='geyan', user='root', passwd='root')
#定義資料庫
with conn.cursor() as cursor:
sql = 'insert into geyan_xiangqing(name,urls) values (%s,%s)'
#寫原生sql語句
cursor.execute(sql,(geyan_name,geyan_urls))
#插入資料
conn.commit()
#呼叫資料庫
print(geyan_urls)
#輸出url
print(geyan_name)
#輸出名字
詳情如下:
雖然寫的不正規我也會多多改正,並且這個資料量較少.
scrapy爬取資料並儲存到文字
1.scrapy專案結構如下 2.開啟spidler目錄下的duba.py檔案,如下 這個是根據豆瓣一部分頁面獲取的熱門話題內容,有6條資料 coding utf 8 import scrapy from scrapydemo.items import scrapydemoitem from lxm...
python爬取網頁資料到儲存到csv
目錄 爬取乙個 將 的資料儲存到csv中。匯入包 import requests import parsel import csv 設定csv檔案格式 設計未來資料的儲存形式。開啟檔案 f open whxixi.csv mode a encoding utf 8 newline 檔案列名 csv ...
Python爬取網路資料,並儲存到資料庫
import pymysql from bs4 import beautifulsoup from selenium import webdriver 這是防止頻繁請求網頁而被斷開連線 driver webdriver.phantomjs 這是煎蛋網的 那個page煎蛋網上是不固定的,所以,隨便取就...