CSDN部落格主題爬取詞雲分析

2021-10-02 20:19:06 字數 1711 閱讀 3606

1.requests獲取http請求

import requests

url=

''head=

rqq=requests.get(url=url,headers=head)

rqq.text

2.beautifulsoup解析標題

from bs4 import beautifulsoup

import numpy as npa=[

]soup=beautifulsoup(rqq.content,

'lxml'

)b=soup.find_all(

'a')

len(b)

for i in np.arange(13,

75):.string)

a

3.jieba分詞、去停用詞

import jieba

import pandas as pd

a=" "

.join(

'%s'

%i for i in a)

#列表轉字串

a= jieba.lcut(a)

# 字串jieba分詞

stopwords=pd.read_csv(

'stopword.txt'

,encoding=

'gbk'

,sep=

'hahaha'

, engine=

'python'

,header=

none

)#讀取停用詞字典

stopwords=

list

(stopwords.iloc[:,

0])+

['none'

,' '

,'\n'

,','

,'1'

,'2'

,'3'

,'.'

,'('

,')'

,'—'

,','

,'。'

,'「'

,'」'

]#停用詞字典和自定義停用詞拼接b=[

]for i in a:

if i not

in stopwords:

b

4.統計詞頻繪製詞雲圖

5.詞雲圖分享

6.小結

從詞雲圖發現,上面的主題詞和最近寫的部落格主題比較接近。

WebCollector爬取CSDN部落格

新聞 部落格爬取是資料採集中常見的需求,也是最容易實現的需求。一些開發者利用httpclient和jsoup等工具也可以實現這個需求,但大多數實現的是乙個單執行緒爬蟲,並且在url去重和斷點爬取這些功能上控制地不好,爬蟲框架可以很好地解決這些問題,開源爬蟲框架往往都自帶穩定的執行緒池 url去重機制...

Python 爬取CSDN部落格文章

新建乙個module,用於根據使用者名稱來獲取文章的url coding utf 8 from bs4 import beautifulsoup import requests 獲取部落格文章數量 def get page size user name article list url user n...

資料分析崗位職責爬取 詞頻

直接放 惹,是智聯招聘的,當前搜尋條件是資料分析,可更換搜尋條件之後更改url字首。市場崗 資料分析崗 coding utf 8 import urllib.request import urllib.parse import re 讀url defget content page url str ...