流式(實時)資料攝取
攝取配置檔案結構說明
靜態資料源
需求:攝取hdfs上的wikiticker-2019-09-12-sampled.json檔案到druid中
操作步驟:
1、啟動hdfs集群、yarn集群
2、上傳 druid測試資料源\維基百科訪問日誌資料到任意伺服器 /root/druid/data3 目錄,再將 wikiticker-2019-09-12-sampled.json 檔案上傳到hdfs
hadoop fs -put wikiticker-2015-09-12-sampled.json /
5、到 druid控制台中執行sql查詢
select
*from
"wikiticker"
limit 1
bin/kafka-topics.sh --create --zookeeper node1:2181,node2:2181,node3:2181,
--partitions 1 --replication-factor 1 --topic metrics
4、開啟postman提交索引任務
在overlord中可以看到
5、在kafka集群上開啟乙個控制台producer
/export/servers/kafka_2.11-1.0.0/bin/kafka-console-producer.sh --broker-list node1:9092,node2:9092,node3:9092 --topic metrics
select
*from
"metrics-kafka"
limit 1
,// ③ 攝取資料來源
"ioconfig":,
// ④ 攝取過程優化配置
"tuningconfig":}
}
// ② 資料攝取模式
"dataschema": ,/
/ 2.2.1.3 指定時間戳的列,以及時間戳格式化方式
"timestampspec": }}
,// 2.3 指標計算規則
"metricsspec": [,]
// 2.4 粒度規則
Druid資料規劃
druid索引好的資料放在historical中,隨著資料規模的擴大,分離資料的需求逐漸變得迫切。druid提供了tier機制與資料載入rule機制,通過它們能很好的將資料進行分離,從而達到靈活的分布資料的目的。tier機制 tier機制的作用是將historical節點進行分組。預設情況下所有的h...
druid字段級 Druid的資料結構
druid的資料結構 druid資料儲存結構可以分為三層 1.datasource 2.chunk 3.segment datasource相當於傳統資料庫的按時間分割槽的表,chunk相當於mysql中的按時間分割槽的表乙個分割槽,但是chunk不是乙個實體,只是乙個虛擬的概念,乙個chunk中可...
Druid學習之路 (三)Druid的資料來源和段
druid的資料儲存在 datasource 中,這其實類似於傳統的rdbms中的表.每乙個資料來源按照時間進行分段,當然你還可以選擇其他屬性進行分段.每乙個時間區間被稱為乙個 chunk 舉個列子,一天的時間區間的chunk,如果你的資料來源是按天進行分段的 在乙個chunk內,資料被分成乙個或者...