Spark2 ML 學習札記

2022-01-10 08:23:51 字數 2045 閱讀 3125

摘要:

1.pipeline 模式

1.1相關概念

1.2**示例

2.特徵提取,轉換以及特徵選擇

2.1特徵提取

2.2特徵轉換

2.3特徵選擇

3.模型選擇與引數選擇

3.1 交叉驗證

3.2 訓練集-測試集 切分

4.spark新增sparksession與dataset

內容:1.pipeline 模式

1.1相關概念

dataframe是來自spark sql的ml dataset 可以儲存一系列的資料型別,text,特徵向量,label和**結果

transformer:將dataframe轉化為另外乙個dataframe的演算法,通過實現transform()方法

estimator:將dataframe轉化為乙個transformer的演算法,通過實現fit()方法

pipeline:將多個transformer和estimator串成乙個特定的ml wolkflow

parameter:tansformer和estimator共用同乙個宣告引數的api

上圖中藍色標識的是transformer(tokenizerandhashingtf),紅色標識的是estimator(logisticregression)

1.2**示例   

val tokenizer = new tokenizer()

.setinputcol("text")

.setoutputcol("words")

val hashingtf = new hashingtf()

.setnumfeatures(1000)

.setinputcol(tokenizer.getoutputcol)

.setoutputcol("features")

val lr = new logisticregression()

.setmaxiter(10)

.setregparam(0.01)

val pipeline = new pipeline()

.setstages(array(tokenizer, hashingtf, lr))

// fit the pipeline to training documents.

val model = pipeline.fit(training)

// make predictions on test documents.

model.transform(test)

.select("id", "text", "probability", "prediction")

.collect()

.foreach

2.特徵提取,轉換以及特徵選擇

2.1特徵提取 

word2vec:將文件轉換成詞向量

countvectorizer:向量值計數

2.2特徵轉換

2.3特徵選擇 

3.模型選擇與引數選擇

3.1 交叉驗證

將資料分為k分,每次測評選取乙份作為測試集,其餘為訓練集;

3.2 訓練集-測試集 切分

根據固定的比例將資料分為測試集和訓練集

**示例:    

val cv = new crossvalidator()

.setestimator(pipeline)

.setevaluator(new binaryclassificationevaluator)

.setestimatorparammaps(paramgrid)

.setnumfolds(2) // use 3+ in practice

4.spark新增sparksession與dataset

WMS開發學習札記2

response是響應物件的請求,對客戶端發出的請求作出動態的響應,向客戶端傳送資料。當伺服器處理完你的請求資訊後,將處理結果發回給客戶端。response.redirect方法的作用是實現頁面的跳轉,跳轉到你所需要的url頁面,並且可以用此方法實現不同頁面之間的值的傳遞。語法 response.r...

ML學習筆記(2)邏輯回歸

邏輯回歸模型一般用來解決二分類問題,就是輸出y只有兩個離散值,例如判斷中是否有貓,0表示nocat,1表示cat。通過這個例子簡要介紹神經網路模型中一些標準化的 有效率的處理方法和notations。包含三個rgb通道,設描述一張尺寸 64,64,3 對這樣一張要將x 64,64,3 轉化為一維向量...

Spark學習筆記 2

val input sc.textfile file path val wordsrdd input.map x x.split method 1 val result wordsrdd.map x x,1 reducebykey x,y x y method 2 val result wordsr...