簡單爬蟲學習

2022-08-28 01:33:24 字數 684 閱讀 6578

寫在前面:快放假了,這兩天心血來潮,自己也想學習一下爬資料,nlp裡資料才是王道,所以自己也寫了乙個爬蟲爬取21財經的某個頻道的新聞資料,僅作為學習爬蟲用。

1  爬蟲的組成:解析主列表頁面,解析詳細頁面,儲存資料

2 使用requests獲取頁面,使用正則或者beautifulsoup解析頁面,都挺方便的。

3 儲存資料採用mongodb。

遇到的問題:

html = requests.get(url,headers)

raw_data = urllib.request.urlopen(url).read()

charset = chardet.detect(raw_data)

encoding = charset['encoding']

html.encoding = encoding

2 解析子頁面時一直獲取不到子頁面資料,通過列印捕獲的異常發現傳遞的子頁面的url包含了引號,導致連線不上子頁面,一般解析子頁面時需要strip一下前後空格,我用正則解析主頁面竟然出現了引號。

3 一開始只使用了正則解析,但是有些巢狀的html結構和一些包含換行空格的**,通過正則獲取不到想要的內容,後來嘗試使用beautifulsoup,通過具體的id、class標籤去獲取,效果不錯,所以最後正則和bs一起用的,ok,奧卡姆razer,簡單有效就行。

**:

Python簡單爬蟲學習

爬蟲 一段自動抓取網際網路資訊的程式。爬蟲排程器 程式入口,主要負責爬蟲程式的控制 url管理器 管理帶抓取url集合和已抓取的url集合。url實現的功能有 1.新增新的url到待爬去集合 2.判斷待新增url是否已存在 3.判斷是否還有待爬的url,將url從待爬集合移動到已爬集合 url的儲存...

簡單學習python爬蟲

學爬蟲之前首先知道什麼是爬蟲 ret.content 按照位元組顯示 ret.text 按照字串顯示 注 以上內容跟下面無關 1.新建乙個python專案spyder 名字自起 2.點選file中的settings 3.點選project spyder下的project interpreter 4....

python爬蟲簡單 python爬蟲 簡單版

學過python的帥哥都知道,爬蟲是python的非常好玩的東西,而且python自帶urllib urllib2 requests等的庫,為爬蟲的開發提供大大的方便。這次我要用urllib2,爬一堆風景。先上重點 1 response urllib2.urlopen url read 2 soup...