測試版
開啟「配置中心」 > 「新建爬蟲」 > 「單頁面型別」 選單,進入爬蟲配置介面:
基本配置:
項是否必填
說明示例
爬蟲名字
是任意字元,不可與以有的爬蟲名稱重複
採集源是
採集的**名稱
源頁面是
要採集的源鏈結,必須為規範的url
匹配開頭
是以該值開頭的鏈結才會被採集
最大採集量
是單個爬蟲最大支援採集量為10000
500執行緒數
是乙個爬蟲所啟用的執行緒數,最大值為3
1允許js
否啟用js可以採集動態網頁,但是採集速度將會變慢,預設不啟用
不啟用描述
否任意值,對爬蟲的表述
基本配置完成後,點選「下一步」進行採集規則配置。
配置規則:
項是否必填
說明示例
欄位code
是採集字段唯一標識,同乙個爬蟲中的字段code不可重複
title
字段標題
是採集欄位唯的名稱
文章標題
採集規則
是採集規則,使用css選擇器,很重要。
.div > .title
採集型別
是text:採集文字內容,html:採集html內容,attr:採集屬性值,當選擇attr時,下面的屬性值必填
text
屬性值否
當採集型別為attr時必填,其他情況不填
href
非空字段
否是否為非空字段,若是,則當該字段為空時,資料將不會被儲存
否去重欄位
否是否是去重欄位,若是則會更具該欄位進行去重,重複的資料將不會被儲存
否採集規則配置說明:
目前使用css選擇器的方式來定位html元素,所以可以使用瀏覽器自帶的檢查元素功能來快速找到css選擇器路徑(以谷歌瀏覽器為例)
比例如需要採集csdn部落格首頁的文章:
然後瀏覽器自動定位到所選元素,再右鍵「copy」 -> 「copy selector」
在將複製的內容貼上到「採集規則」輸入框即可。
配置完成
採集規則配置完成後,點選「下一步」,選擇「儲存」或者「啟動爬蟲」。「儲存」將不會啟動爬蟲,需要在「資料採集」 > 「狀態管理」 中找到剛配置的爬蟲,點選「啟動」。
C 採集頁面資料
using htmlagilitypack using nito.asyncex using system using system.diagnostics using system.io using system.io.compression using system.net using syst...
剖析大資料平台的資料採集
我在一次社群活動中做過一次分享,演講題目為 大資料平台架構技術選型與場景運用 在演講中,我主要分析了大資料平台架構的生態環境,並主要以資料來源 資料採集 資料儲存與資料處理四個方面展開分析與講解,並結合具體的技術選型與需求場景,給出了我個人對大資料平台的理解。本文講解資料採集部分。資料採集的設計,幾...
大資料 資料採集平台之Scribe
apache flume 詳情請看文章 大資料 資料採集平台之apache flume fluentd 詳情請看文章 大資料 資料採集平台之fluentd logstash 詳情請看文章 大資料 資料採集平台之logstash apache chukwa 詳情請看文章 大資料 資料採集平台之apac...