學習進度筆記

學習進度筆記24

讀取檔案演示

import org.apache.spark.sparkconf

import org.apache.spark.streaming.

import org.apache.spark.streaming.streamingcontext._

object filewordcount {

def main(args: array[string]) {

// 建立streaming的上下文，包括spark的配置和時間間隔，這裡時間為間隔20秒

val ssc = new streamingcontext(sparkconf, seconds(20))

// 指定監控的目錄，在這裡為/home/hadoop/temp/

val lines = ssc.textfilestream("/home/hadoop/temp/")

// 對指定資料夾變化的資料進行單詞統計並且列印

val words = lines.flatmap(_.split(" "))

val wordcounts = words.map(x => (x, 1)).reducebykey(_ + _)

wordcounts.print()

// 啟動streaming

ssc.start()

ssc.awaittermination()

學習進度筆記

學習進度筆記26 分類演算法分類演算法屬於監督式學習，使用類標籤已知的樣本建立乙個分類函式或分類模型，應用分類模型，能把資料庫中的類標籤未知的資料進行歸類。分類在資料探勘中是一項重要的任務，目前在商業上應用最多，常見的典型應用場景有流失精確營銷客戶獲取個性偏好等。mllib 目前支援分類演算...

學習進度筆記

學習進度筆記16 scala語言學習 object testmap def ttt f int int unit val r f 10 println r val f0 x int x x 定義了乙個方法 def m0 x int int 傳遞進來的引數乘以10 x 10 將方法轉換成函式，利用了神...

學習進度筆記

學習進度筆記03 今天學習了python的檔案讀寫 io在計算機中指input output，也就是輸入和輸出。由於程式和執行時資料是在記憶體中駐留，由cpu這個超快的計算核心來執行，涉及到資料交換的地方，通常是磁碟網路等，就需要io介面。由於cpu和記憶體的速度遠遠高於外設的速度，所以，在io程...

學習進度筆記

學習進度筆記

學習進度筆記

學習進度筆記

相關推薦