學習進度筆記24
讀取檔案演示
import org.apache.spark.sparkconf
import org.apache.spark.streaming.
import org.apache.spark.streaming.streamingcontext._
object filewordcount {
def main(args: array[string]) {
// 建立streaming的上下文,包括spark的配置和時間間隔,這裡時間為間隔20秒
val ssc = new streamingcontext(sparkconf, seconds(20))
// 指定監控的目錄,在這裡為/home/hadoop/temp/
val lines = ssc.textfilestream("/home/hadoop/temp/")
// 對指定資料夾變化的資料進行單詞統計並且列印
val words = lines.flatmap(_.split(" "))
val wordcounts = words.map(x => (x, 1)).reducebykey(_ + _)
wordcounts.print()
// 啟動streaming
ssc.start()
ssc.awaittermination()
學習進度筆記
學習進度筆記26 分類演算法 分類演算法屬於監督式學習,使用類標籤已知的樣本建立乙個分類函式或分類模型,應用分類模型,能把資料庫中的類標籤未知的資料進行歸類。分類在資料探勘中是一項重要的任務,目前在商業上應用最多,常見的典型應用場景有流失 精確營銷 客戶獲取 個性偏好等。mllib 目前支援分類演算...
學習進度筆記
學習進度筆記16 scala語言學習 object testmap def ttt f int int unit val r f 10 println r val f0 x int x x 定義了乙個方法 def m0 x int int 傳遞進來的引數乘以10 x 10 將方法轉換成函式,利用了神...
學習進度筆記
學習進度筆記03 今天學習了python的檔案讀寫 io在計算機中指input output,也就是輸入和輸出。由於程式和執行時資料是在記憶體中駐留,由cpu這個超快的計算核心來執行,涉及到資料交換的地方,通常是磁碟 網路等,就需要io介面。由於cpu和記憶體的速度遠遠高於外設的速度,所以,在io程...