python爬蟲常用的模組

由於作者經常有抓取**內容的需要，所以就對使用過的爬蟲工具進行了總結，以備後續查詢

某台灣大神開發的，功能簡單，能夠自動抓取某個**的所有內容，當然你也可是設定那些url需要抓。

功能介面：

set_content_type_filter:

設定抓取的content-type（header中的contenttype）。包括text/html

add_url_filter：

過濾url，傳入的可以是正規表示式

set_follow_mode：

設定遞迴模式，f_any：該頁面上所有鏈結都會抓取。 f_same_domain和f_same_host類似。即同乙個網域名稱的都會抓取。f_same_path：同一路徑的抓取。例如bag.vancl.com/l1/d3/1.jpg path為l1/d3/1.jpg，則path為l1/d3/*的都會抓取。這裡可以根據需要增加自己的遞迴模式

set_concurrency_level：

設定執行緒最大數

process_document：

一般需要重寫，處理網頁內容，提取自己需要的內容。

視覺化介面，抓取自動化，api使用超簡單，完全像是自己在操作瀏覽器。

官方**：

python官方**

webdriver api（很好用，建議多了解一下）

docs/03_webdriver.jsp

以下是乙個例子

抓取凡客**

from selenium import webdriver
from selenium.webdriver.common.keys import keys
import time
browser = webdriver.firefox()
browser.get('')
elem = browser.find_element_by_name('ch_bag-3-page-next')  # find the search box
time.sleep(1)
print elem.get_attribute("href")
elem.click()
time.sleep(1)
elem = browser.find_element_by_name('ch_bag-3-page-next')  # find the search box
print elem.get_attribute("href")
elem.click()

python爬蟲模式 python爬蟲模組理解

url管理器用來管理要抓取的url和已抓取的url,防止重複抓取和迴圈抓取，url管理器的五個最小功能 1 新增url到容器中 2 獲取乙個url 3 判斷url是否已在容器中 4 判斷是否還有待爬取的url 5 將待爬取的url移到已爬取的url 2 新增data和http header 3 新...

python爬蟲requests模組

首先，沒有安裝的先安裝 cmd pip conda install requests 先給大家乙個模板，如果已經很熟悉了，直接忽略，不懂得就可以看看了接下來解釋一下相應的的意思這個和上和上面的是一樣的，執行後輸出的都是一樣的啦 coding utf 8 引入網路請求模組,該模組有兩個重要的物...

python爬蟲 requests模組

功能模擬瀏覽器發請求指定url 發起請求獲取響應資料持久化儲存 import requests 指定url url 發起請求，返回乙個響應對像 response requests.get url url 獲取響應資料 text返回的是字串型別的響應資料 page text response....

python爬蟲常用的模組

python爬蟲模式 python爬蟲模組理解

python爬蟲requests模組

python爬蟲 requests模組

相關推薦