kafka中存有從metricbeat收集的各種資料系統指標資料存到同乙個topic中,但是各種指標資料不盡相同,這時候需要將相同結構的資料收集到一起分開處理,就用到了flink的分流操作。
主要有flink、kafka和解析json的依賴。
org.apache.flink
flink-streaming-scala_2.11
1.11.1
org.apache.flink
flink-clients_2.11
1.11.1
org.apache.flink
flink-connector-kafka-0.10_2.11
1.11.1
com.alibaba
fastjson
1.2.62
compile
object kafkademo
} else }})
//主輸出流可以直接print
// splitedds.print()
//側輸出流需要使用getsideoutput獲取
splitedds.getsideoutput(new outputtag[jsonobject]("unknown"))
.print()
env.execute("process function demo")
}}
process function的功能當然還有很多,是flink中非常強大的函式。 利用NLTK sklearn進行垃圾郵件分類
利用nltk來進行資料處理和提取特徵,再交由sklearn進行機器學習訓練分類器,嘗試了多個機器學習演算法並評價分類效能。上 import nltk from nltk.corpus import stopwords from nltk.stem import wordnetlemmatizer i...
二分 利用結果範圍進行查詢
給定起點和終點之間的距離 l 在起點和終點之間存在 n 個點,給出這 n 個點距離起點的距離,求把這n個點中去掉m個點後剩餘點之間可能的最小值的最大值 即求 n m 個點之 間距離最小值的最大值 首先知道結果必然存在於在不操作的最小值和l之間,答案範圍確定。然後就是給定middle含義 比最小值略小...
讀書筆記2 利用Python進行資料分
series 索引index和資料values。可以看成乙個定長的有序字典。通過字典建立series df series s1 s1為字典。傳入字典,結果series中的索引就是原字典的鍵 有序排列 例如s a b df1 series df,index s nan 非數字,not a number...