python 3 爬起點中文網，簡單分析

python 3之後，爬蟲相對來說簡單一些。主要會用到requests和beautifulsoup庫，reuqests代替瀏覽器傳送http請求並返回內容，返回的內容之前都是用正規表示式處理，當然現在也可以，不過現在beautifulsoup庫用得比較多。beautifulsoup處理html標籤，用得最多的是find、find_all、select函式。

一、研究網頁結構

**：我用的是chrome瀏覽器,開啟**，滑鼠右鍵選擇「檢查」，然後重新整理。headers主要是頭部資訊，preview是頁面的結構，主要是根據headers來寫requests，分析preview找到自己要爬取的資訊然後來寫beautifulsoup。

二、爬取第一頁內容

在preview裡面，我找到了要爬取的資訊都在rank-view-list這個標籤，所以剩下就很簡單了，定位到相應的標籤即可。

三、迴圈爬取25頁的內容

因為url的前面都沒有變化，只需要更改page後面的引數就好，所以加乙個迴圈，完整**如下：

importrequests
frombs4importbeautifulsoup
newsary=
foriinrange(25):
res=requests.get(''+str(i+1))
soup=beautifulsoup(res.text,'html.parser')
fornewsinsoup.select('.rank-view-list li'):
:news.select('a')[1].text,'name':news.select('a')[2].text,'style':news.select('a')[3].text,'describe':news.select('p')[1].text,'lastest':news.select('p')[2].text,'url':news.select('a')[0]['href'],'votes':news.select('p')[3].text})
#將爬取的資訊儲存到本地的excel檔案中
importpandas
importopenpyxl
newsdf=pandas.dataframe(newsary)
newsdf.to_excel('/users/songrenqing/downloads/qidian_rank1.xlsx')

爬好後，在excel中大概是這種形式，我做了一些簡單的處理

四、簡單的分析

選取了得票最高的十位作者

都市和玄幻類題材最受作者歡迎，這兩個題材的寫作者佔了一半左右。

python 3 爬起點中文網，簡單分析

Python之起點中文網爬蟲

python3中文長度 python3獲得漢字長度

Python3中檔案處理

python 3 爬起點中文網，簡單分析

Python之起點中文網爬蟲

python3中文長度 python3獲得漢字長度

Python3中檔案處理

相關推薦