python 3之後,爬蟲相對來說簡單一些。主要會用到requests和beautifulsoup庫,reuqests代替瀏覽器傳送http請求並返回內容,返回的內容之前都是用正規表示式處理,當然現在也可以,不過現在beautifulsoup庫用得比較多。beautifulsoup處理html標籤,用得最多的是find、find_all、select函式。
一、研究網頁結構
**:我用的是chrome瀏覽器,開啟**,滑鼠右鍵選擇「檢查」,然後重新整理。headers主要是頭部資訊,preview是頁面的結構,主要是根據headers來寫requests,分析preview找到自己要爬取的資訊然後來寫beautifulsoup。
二、爬取第一頁內容
在preview裡面,我找到了要爬取的資訊都在rank-view-list這個標籤,所以剩下就很簡單了,定位到相應的標籤即可。
三、迴圈爬取25頁的內容
因為url的前面都沒有變化,只需要更改page後面的引數就好,所以加乙個迴圈,完整**如下:
importrequests爬好後,在excel中大概是這種形式,我做了一些簡單的處理 四、簡單的分析frombs4importbeautifulsoup
newsary=
foriinrange(25):
res=requests.get(''+str(i+1))
soup=beautifulsoup(res.text,'html.parser')
fornewsinsoup.select('.rank-view-list li'):
:news.select('a')[1].text,'name':news.select('a')[2].text,'style':news.select('a')[3].text,'describe':news.select('p')[1].text,'lastest':news.select('p')[2].text,'url':news.select('a')[0]['href'],'votes':news.select('p')[3].text})
#將爬取的資訊儲存到本地的excel檔案中
importpandas
importopenpyxl
newsdf=pandas.dataframe(newsary)
newsdf.to_excel('/users/songrenqing/downloads/qidian_rank1.xlsx')
選取了得票最高的十位作者
都市和玄幻類題材最受作者歡迎,這兩個題材的寫作者佔了一半左右。
Python之起點中文網爬蟲
注 請勿用於其他用途,僅供學習使用 import requests import re import os from lxml import etree head defget page book id 獲取章節字段 所有章節介面https b url 獲取文章內容 b p url 名 id j t...
python3中文長度 python3獲得漢字長度
import string def str count str 找出字串中的中英文 空格 數字 標點符號個數 count en count dg count sp count zh count pu 0 for s in str 英文 if s in string.ascii letters cou...
Python3中檔案處理
1 txt,xls,doc等檔案的使用 f open filename w 開啟乙個用於寫入的檔案,要寫入內容時使用f.write 內容 f open filename r 開啟乙個用於讀的檔案,讀時使用f.read 返回讀取的到的字串 f open filename a 開啟的檔案既可用於讀,也可...