a3.sources = r3
a3.sinks = k3
a3.channels = c3
# describe/configure the source
a3.sources.r3.type = spooldir
a3.sources.r3.spooldir =
/opt/module/flume-
1.7.0
/upload
a3.sources.r3.filesuffix =
.completed
a3.sources.r3.fileheader =
true
#忽略所有以.tmp結尾的檔案,不上傳
a3.sources.r3.ignorepattern =([
^]*\.tmp)
# describe the sink
a3.sinks.k3.type = hdfs
a3.sinks.k3.hdfs.path = hdfs:
//hadoop102:
9000
/flume/upload/
%y%m%d/
%h#上傳檔案的字首
a3.sinks.k3.hdfs.fileprefix = upload-
#是否按照時間滾動資料夾
a3.sinks.k3.hdfs.round =
true
#多少時間單位建立乙個新的資料夾
a3.sinks.k3.hdfs.roundvalue =
1#重新定義時間單位
a3.sinks.k3.hdfs.roundunit = hour
#是否使用本地時間戳
a3.sinks.k3.hdfs.uselocaltimestamp =
true
#積攢多少個event才flush到hdfs一次
a3.sinks.k3.hdfs.batchsize =
100#設定檔案型別,可支援壓縮
a3.sinks.k3.hdfs.filetype = datastream
#多久生成乙個新的檔案
a3.sinks.k3.hdfs.rollinterval =
60#設定每個檔案的滾動大小大概是128m
a3.sinks.k3.hdfs.rollsize =
134217700
#檔案的滾動與event數量無關
a3.sinks.k3.hdfs.rollcount =
0# use a channel which buffers events in memory
a3.channels.c3.type = memory
a3.channels.c3.capacity =
1000
a3.channels.c3.transactioncapacity =
100# bind the source and sink to the channel
a3.sources.r3.channels = c3
a3.sinks.k3.channel = c3
Flume1 9 0實時監控目錄下多個新檔案
1.案例需求 使用flume監聽整個目錄的檔案,並上傳至hdfs 2.實現步驟 1 建立配置檔案flume dir hdfs.conf 建立乙個檔案 nogc hadoop102 job vim flume dir hdfs.conf新增如下內容 a3.sources r3 a3.sinks k3 ...
python之查詢指定目錄下的最新檔案
使用os模組查詢指定目錄下的最新檔案1 importos2 3 輸入目錄路徑,輸出最新檔案完整路徑 4def find new file dir 5 查詢目錄下最新的檔案 6 file lists os.listdir dir 7 file lists.sort key lambda fn os.p...
監控目錄下的檔案操作與實時同步
若有個需求 要求記錄下某個目錄下的所有操作,包括建立檔案 修改檔案 重新命名 刪除檔案的操作,將以上所有的操作全部記錄到日誌中,或者做其他操作。net提供了乙個方法叫做 system.io.filesystemwatcher 方便powershell來呼叫。具體使用方法,我慢慢解釋。folder c...