1、找到某**的跟路徑;
1、xpath使用;(xml和html都支援)比正規表示式強大而簡單;
2、多執行緒爬取;
lxml就是xpath的庫名稱。
匯入方式:from lxml import etree
使用方式:
1、selector = etree.html(網頁**)
2、selector.xpath(」這裡是路徑,舉例如下「)
//:表示定位到根節點
/:下一級
/:文字
@:屬性開頭,相當於字典的鍵
舉例:selector.xpath("//ul[2][@id =「name1」]/li[3]/text()")
理解為:在根路徑下,找到第二個ul中id為name1下,找到第三個li中的文字。
以相同字元開頭
starts-with(@屬性)
標籤套標籤
from multiprocessing.dummy import
多執行緒操作下,所取到的資料沒有必然順序,都是在哥哥執行緒上各自搶負荷。
簡單爬蟲學習
寫在前面 快放假了,這兩天心血來潮,自己也想學習一下爬資料,nlp裡資料才是王道,所以自己也寫了乙個爬蟲爬取21財經的某個頻道的新聞資料,僅作為學習爬蟲用。1 爬蟲的組成 解析主列表頁面,解析詳細頁面,儲存資料 2 使用requests獲取頁面,使用正則或者beautifulsoup解析頁面,都挺方...
python開發簡單爬蟲 準備篇
乙個簡單爬蟲的架構圖如下所示 簡單爬蟲架構的動態執行流程如下圖所示 url管理器 管理待爬取的url集合和以爬取的url集合。作用是防止重複爬取和迴圈爬取。乙個url管理器應該具有以下幾個功能 關聯式資料庫 快取資料庫 方法1 最簡潔的方法 coding utf 8 import urllib2 直...
Python簡單爬蟲學習
爬蟲 一段自動抓取網際網路資訊的程式。爬蟲排程器 程式入口,主要負責爬蟲程式的控制 url管理器 管理帶抓取url集合和已抓取的url集合。url實現的功能有 1.新增新的url到待爬去集合 2.判斷待新增url是否已存在 3.判斷是否還有待爬的url,將url從待爬集合移動到已爬集合 url的儲存...