nutch1 6在本地模式和分布式模式下爬取過程

2021-08-20 19:17:24 字數 1955 閱讀 4235

一、本地模式下nutch1.6爬取

1、建立兩個目錄,crawl目錄儲存爬取的資料,

urls

目錄儲存爬取的

url,並在

urls

目錄中建立乙個

seed.txt

檔案,寫入需要爬取的

url位址。

2、修改./nutch1.6/runtime/local/conf/regex-urlfilter.txt檔案的最後一行內容:

將檔案的最後一行「+.」改為「+^http://([a-z0-9]*\.)*nutch.apache.org/」

5、將./nutch1.6/runtime/local/conf/nutch-site.xml

檔案的以下內容改為:

修改前:

*修改後:

爬取urls目錄中定義好的網頁資訊:

進入./nutch-1.6/runtime/local目錄,執行

bin/nutch crawl/data/urls/seed.txt -dir crawl -depth 3 -topn 5

執行完成的結果:

此時在之前建立的crawl目錄下有三個目錄檔案:

crawldb

、linkdb

、segments

。crawldb: 爬行資料庫,用來儲存所要爬行的**。

segments: 抓取的**被作為乙個單元,而乙個

segment

就是乙個單元。

二、分布式模式下執行nutch1.6

1、配置好

hadoop

環境變數,啟動

hadoop

的所有節點

bin/start-all.sh

2、進入

nutch1.6/conf

下配置nutch-site.xml

修改後:

1、將url上傳到

hadoop

分布式檔案系統中

hadoop fs -mkdir /urls

hadoop fs -copyfromlocal ./runtime/local/urls/seed.txt /urls/

2、設定爬取規則

進入regex-urlfilter.txt檔案,修改最後一行內容為:

5、執行

ant重新編譯

ant6、進入

nutch1.6/runtime/deploy

目錄執行

bin/nutch crawl /urls/* -dir /home/software/nutch-1.6/crawl/ -depth 3 -topn 5

引數說明:

bin/nutch : nutch1.6的命令

crawl

:nutch1.6

命令的選項

-dir /home/software/nutch-1.6/crawl/: hadoop分布式檔案系統的路徑

-depth 3 : 抓取的深度

-topn 5 : 每一次抓取的條數。

出現下圖,圖一是開始執行時出現的資訊,圖

二、三是獲取資料後的資訊。

Hadoop本地模式安裝和分布式模式安裝詳細步驟

black right hadoop本地安裝模式 black right 偽分布式模式hdfs yarn配置 啟動 要保證datanode namenode是啟動的 yarn daemon.sh start resourcemanager yarn daemon.sh start nodemanag...

分布式模式之broker模式

建立乙個遊戲系統,其將執行在網際網路的環境中。客戶端通過www 服務或特定的客戶端軟體連線到遊戲伺服器,隨著流量的增加,系統不斷的膨脹,最終後台資料 業務邏輯被分布式的部署。然而相比中心化的系統,複雜度被無可避免的增大了,該如何降低各個元件之間的耦合度。需要保證可伸縮性 可維護性 可更新性,需要將服...

本地事務和分布式事務

1 本地事務acid 和 cap中的ca區別 本地事務 a 原子性 乙個事務中所有操作,要不全部完成,要不全部不完成,事務在執行過程中發生錯誤,會被回滾到事務開始前的狀態,就像這個事務沒有被執行過一樣。c 一致性 事務的一致性指在乙個事務執行之前和執行之後資料庫都必須處於一致性狀態,如果事務成功完成...