1.requests獲取http請求
import requests
url=
''head=
rqq=requests.get(url=url,headers=head)
rqq.text
2.beautifulsoup解析標題
from bs4 import beautifulsoup
import numpy as npa=[
]soup=beautifulsoup(rqq.content,
'lxml'
)b=soup.find_all(
'a')
len(b)
for i in np.arange(13,
75):.string)
a
3.jieba分詞、去停用詞
import jieba
import pandas as pd
a=" "
.join(
'%s'
%i for i in a)
#列表轉字串
a= jieba.lcut(a)
# 字串jieba分詞
stopwords=pd.read_csv(
'stopword.txt'
,encoding=
'gbk'
,sep=
'hahaha'
, engine=
'python'
,header=
none
)#讀取停用詞字典
stopwords=
list
(stopwords.iloc[:,
0])+
['none'
,' '
,'\n'
,','
,'1'
,'2'
,'3'
,'.'
,'('
,')'
,'—'
,','
,'。'
,'「'
,'」'
]#停用詞字典和自定義停用詞拼接b=[
]for i in a:
if i not
in stopwords:
b
4.統計詞頻繪製詞雲圖
5.詞雲圖分享
6.小結
從詞雲圖發現,上面的主題詞和最近寫的部落格主題比較接近。
WebCollector爬取CSDN部落格
新聞 部落格爬取是資料採集中常見的需求,也是最容易實現的需求。一些開發者利用httpclient和jsoup等工具也可以實現這個需求,但大多數實現的是乙個單執行緒爬蟲,並且在url去重和斷點爬取這些功能上控制地不好,爬蟲框架可以很好地解決這些問題,開源爬蟲框架往往都自帶穩定的執行緒池 url去重機制...
Python 爬取CSDN部落格文章
新建乙個module,用於根據使用者名稱來獲取文章的url coding utf 8 from bs4 import beautifulsoup import requests 獲取部落格文章數量 def get page size user name article list url user n...
資料分析崗位職責爬取 詞頻
直接放 惹,是智聯招聘的,當前搜尋條件是資料分析,可更換搜尋條件之後更改url字首。市場崗 資料分析崗 coding utf 8 import urllib.request import urllib.parse import re 讀url defget content page url str ...