資料採集平台教程單頁面採集

測試版

開啟「配置中心」 > 「新建爬蟲」 > 「單頁面型別」選單，進入爬蟲配置介面：

基本配置：

項是否必填

說明示例

爬蟲名字

是任意字元，不可與以有的爬蟲名稱重複

採集源是

採集的**名稱

源頁面是

要採集的源鏈結，必須為規範的url

匹配開頭

是以該值開頭的鏈結才會被採集

最大採集量

是單個爬蟲最大支援採集量為10000

500執行緒數

是乙個爬蟲所啟用的執行緒數，最大值為3

1允許js

否啟用js可以採集動態網頁，但是採集速度將會變慢，預設不啟用

不啟用描述

否任意值，對爬蟲的表述

基本配置完成後，點選「下一步」進行採集規則配置。

配置規則：

項是否必填

說明示例

欄位code

是採集字段唯一標識，同乙個爬蟲中的字段code不可重複

title

字段標題

是採集欄位唯的名稱

文章標題

採集規則

是採集規則，使用css選擇器，很重要。

.div > .title

採集型別

是text：採集文字內容，html：採集html內容，attr：採集屬性值，當選擇attr時，下面的屬性值必填

text

屬性值否

當採集型別為attr時必填，其他情況不填

href

非空字段

否是否為非空字段，若是，則當該字段為空時，資料將不會被儲存

否去重欄位

否是否是去重欄位，若是則會更具該欄位進行去重，重複的資料將不會被儲存

否採集規則配置說明：

目前使用css選擇器的方式來定位html元素，所以可以使用瀏覽器自帶的檢查元素功能來快速找到css選擇器路徑（以谷歌瀏覽器為例）

比例如需要採集csdn部落格首頁的文章：

然後瀏覽器自動定位到所選元素，再右鍵「copy」 -> 「copy selector」

在將複製的內容貼上到「採集規則」輸入框即可。

配置完成

採集規則配置完成後，點選「下一步」，選擇「儲存」或者「啟動爬蟲」。「儲存」將不會啟動爬蟲，需要在「資料採集」 > 「狀態管理」中找到剛配置的爬蟲，點選「啟動」。

C 採集頁面資料

using htmlagilitypack using nito.asyncex using system using system.diagnostics using system.io using system.io.compression using system.net using syst...

剖析大資料平台的資料採集

我在一次社群活動中做過一次分享，演講題目為大資料平台架構技術選型與場景運用在演講中，我主要分析了大資料平台架構的生態環境，並主要以資料來源資料採集資料儲存與資料處理四個方面展開分析與講解，並結合具體的技術選型與需求場景，給出了我個人對大資料平台的理解。本文講解資料採集部分。資料採集的設計，幾...

大資料資料採集平台之Scribe

apache flume 詳情請看文章大資料資料採集平台之apache flume fluentd 詳情請看文章大資料資料採集平台之fluentd logstash 詳情請看文章大資料資料採集平台之logstash apache chukwa 詳情請看文章大資料資料採集平台之apac...

資料採集平台 教程 單頁面採集

C 採集頁面資料

剖析大資料平台的資料採集

大資料 資料採集平台之Scribe

相關推薦

資料採集平台教程單頁面採集

大資料資料採集平台之Scribe