1import
requests
2importre3
import
bs44
importos5
import
datetime
67 url="
"8 headers=
9try
:10 r=requests.get(url,headers=headers)
11except:12
print("
出現了不可預期的錯誤")
1314 hotpattern=re.compile('
([\s,\s]*?)')
15 hotlist=re.findall(hotpattern,r.text)
16if hotlist==:
17print("
匹配模式可能出了問題")
18else:19
#接下來開始提取熱搜資料
20 datalist=
21for hotpoint in
hotlist:
22 data=
23 hotsoup=bs4.beautifulsoup(hotpoint,'
html.parser')
24#獲取排名25#
print(hotsoup.tr.contents[1])
26 rank=hotsoup.tr.contents[1].string
27if rank==none:速公升"
)29else:30
3132
#獲取熱搜名稱33#
print(hotsoup.tr.contents[3])
34 name=hotsoup.tr.contents[3].a.string
3536
373839#
建立資料夾
40 cwd=os.getcwd()
41 time=datetime.datetime.now().strftime(r'
%y\%m
') #以【年/月/】作為目錄
42 day=datetime.datetime.now().strftime(r'
\%d'
) #以【日.txt】作為檔名
設定基本屬性
設定觸發器
設定操作(注意要設定起始位置為檔案所在目錄)
設定條件
爬取新浪微博熱搜榜
一 主題式網路爬蟲設計方案 15分 3.主題式網路爬蟲設計方案概述 包括實現思路與技術難點 本案例使用requests庫獲取網頁資料,使用beautifulsoup庫解析頁面內容,再使用pandas庫把爬取的資料輸出,並對資料視覺化,最後進行小結 技術難點 爬取有用的資料,將有礙分析的資料剔除,回歸...
Python爬取微博熱搜榜,將資料存入資料庫
這裡是用來爬取微博熱搜榜的資料,網頁位址為開啟網頁並按下f12進入開發者模式,找到.裡的內容,如圖所示 href後面的內容即為對應的中文編碼的原始碼,其中很多25應該是干擾字元,後面刪掉解析就可以發現是微博熱搜的標題。我數了下,一共有27個,剛好第乙個標題為 比伯願為賽琳娜捐腎 九個字,乙個漢字佔三...
小鹽巴學習筆記 用Python爬取微博熱搜
前言 一 爬蟲分析 二 完整 總結今天爬取的方式還是正則,但寫法略有不同,量更少 進入後滑鼠右鍵檢視原始碼,看能不能直接看到資料 呀可以直接看到,省事,直接正則一套帶走 頭部,偽裝成瀏覽器訪問 headers response requests.get url url,headers headers...