本例項構建一條最簡單的資料流,從檔案系統的乙個本地目錄讀取檔案,生成資料流,然後分別寫入到另乙個本地目錄下和指定的hdfs目錄下。
說明每個處理器的配置視窗,有四個tab,說明如下:
tab描述
settings
處理器資訊的配置,例如處理器名稱。可以說是乙個處理器型別的例項。
scheduling
處理器的排程配置,可以進行定時排程和調整分配給此處理器的資源,例如可以使用的執行緒數。
properties
定義處理器的行為,是處理器配置的重點部分。
comments
乙個文字區,可以寫一些描述資訊或者其他資訊,也可以不寫任何內容。
詳情可參考 configuring a processor。
下面的處理器配置說明,我只寫改動的和新增的配置部分。
getfile
型別:getfile
properties:
name
value
input directory
/opt/xwd/input
putfile
型別:putfile
properties:
name
value
directory
/opt/xwd/localdir
puthdfs
型別:puthdfs
properties:
name
value
hadoop configuration resources
/etc/hadoop/conf/core-site.xml
directory
/nifi
建立測試目錄和檔案
mkdir -p /opt/xwd/input
mkdir /opt/xwd/localdir
cd /opt/xwd
touch test.txt
echo
'hello world!'
> test.txt
測試資料流
確保getfile處理器處於關閉狀態,執行命令:
cd /opt/xwd
cp test.txt input/test0.txt
檢視/opt/xwd/input目錄,可發現test0.txt檔案。
啟動所有處理器。
再次檢視/opt/xwd/input目錄,沒有任何檔案。
檢視/opt/xwd/localdir目錄,可發現test0.txt檔案。
檢視hdfs的/nifi目錄(hdfs dfs -ls /nifi
),可發現test0.txt檔案。
繼續測試,執行命令:
cd /opt/xwd
cp test.txt input/test1.txt
cp test.txt input/test2.txt
檢視/opt/xwd/input目錄,會發現目錄下沒有任何檔案。
如果想要保留資料流的原始檔,這裡是保留/opt/xwd/input目錄下的檔案,可以對getfile處理進行如下設定:
name
value
keep source file
true
MapReduce資料流(一)
在 作業由那些基本元件組成,從高層來看,所有的元件在一起工作時如下圖所示 圖4.4高層mapreduce工作流水線 近距離觀察 圖4.5細節化的hadoop mapreduce資料流 圖4.5展示了流線水中的更多機制。雖然只有2個節點,但相同的流水線可以複製到跨越大量節點的系統上。下去的幾個段落會詳...
TCP互動資料流 成塊資料流
tcp資料流分類 基於tcp的各類解決方案,可以根據資料吞吐量來大致分成兩大類 1 互動資料型別,例如telnet,ssh,這種型別的協議在大多數情況下只是做小流量的資料交換,比如說按一下鍵盤,回顯一些文字等等。2 資料成塊型別,例如ftp,這種型別的協議要求tcp能盡量的運載資料,把資料的吞吐量做...
資料流重定向 一
為什麼要使用命令輸出重定向?螢幕輸出的資訊很重要,而且我們需要將它存下來的時候 後台執行中的程式,不希望它干擾螢幕正常的輸出結果時 一些系統的例行命令的執行結果,希望它可以存下來 一些執行命令的可能已知錯誤資訊時,想以 2 dev null 將它丟掉時 錯誤資訊與正確資訊需要分別輸出時 1 資料流重...