1,介面名稱
2,介面說明
如果您想編寫乙個網路爬蟲程式,您會發現大部分時間耗費在調測網頁內容提取規則上,不講正規表示式的語法如何怪異,即便使用xpath,您也得逐個編寫和除錯。如果要從乙個網頁上提取很多字段,逐個除錯xpath將是十分耗時的。通過這個介面,你可以直接獲得乙個調測好的提取器指令碼程式,是標準的xslt程式,您只需針對目標網頁的dom執行它,就能獲得xml格式的結果,所有字段一次性獲得。
用於資料分析和資料探勘的網路爬蟲程式中,內容提取器是影響通用性的關鍵障礙,如果這個提取器是從api獲得的,您的網路爬蟲程式就能寫成通用的框架。請參看
gooseeker的開源python網路爬蟲專案
。3,介面規範
3.1,介面位址(url)
api/getextractor
3.2,請求型別(contenttype) 不限
3.3,請求方法
3.4,請求引數
注釋:請參看gooseeker網路爬蟲術語解釋:doc/article-57-1.html
3.5,返回型別(contenttype)
text/xml; charset=utf-8
3.6,返回引數
http訊息頭中的引數,如下:
3.7,返回錯誤資訊
4,用法範例(python語言)
1,gooseeker會員中心申請key
2,提取器名獲取參考
1分鐘快速生成用於網頁內容提取的xslt
示例**:
5,相關文件# -*- coding: utf-8 -*-
from urllib import request
url = 'api/getextractor?key=您的key&theme=您的提取器名'
resp = request.urlopen(url)
content = resp.read()
if(content):
print(content)
1, python即時網路爬蟲專案: 內容提取器的定義
1, gooseeker開源python網路爬蟲github源
7,文件修改歷史
1,2016-06-22:v1.0
python網路爬蟲 使用API之API通用規則
和大多數網路資料採集的方式不同,api用一套非常標準的規則生成資料,而且生成的資料也是按照非常標準的方式組織的。因為規則很標準,所以一些簡單 基本的規則很容易學,也可以幫你快速地掌握任意api的用法。不過並非所有的api都很簡單,有些api的規則是比較複雜的,因此第一次使用乙個api時,建議閱讀文件...
Python即時網路爬蟲專案 內容提取器的定義
專案背景 在python 即時網路爬蟲專案啟動說明中我們討論乙個數字 程式設計師浪費在調測內容提取規則上的時間,從而我們發起了這個專案,把程式設計師從繁瑣的調測規則中解放出來,投入到更高階的資料處理工作中。解決方案 為了解決這個問題,我們把影響通用性和工作效率的提取器隔離出來,描述了如下的資料處理流...
python結合API實現即時天氣資訊
python結合api實現即時天氣資訊 import urllib.request import urllib.parse import json 利用 最美天氣 抓取即時天氣情況 snwzsx class zuimei def init self self.url zuimei queryweat...