摘要:
1.pipeline 模式
1.1相關概念
1.2**示例
2.特徵提取,轉換以及特徵選擇
2.1特徵提取
2.2特徵轉換
2.3特徵選擇
3.模型選擇與引數選擇
3.1 交叉驗證
3.2 訓練集-測試集 切分
4.spark新增sparksession與dataset
內容:1.pipeline 模式
1.1相關概念
dataframe是來自spark sql的ml dataset 可以儲存一系列的資料型別,text,特徵向量,label和**結果
transformer:將dataframe轉化為另外乙個dataframe的演算法,通過實現transform()方法
estimator:將dataframe轉化為乙個transformer的演算法,通過實現fit()方法
pipeline:將多個transformer和estimator串成乙個特定的ml wolkflow
parameter:tansformer和estimator共用同乙個宣告引數的api
上圖中藍色標識的是transformer(tokenizer
andhashingtf
),紅色標識的是estimator(logisticregression)
1.2**示例
val tokenizer = new tokenizer().setinputcol("text")
.setoutputcol("words")
val hashingtf = new hashingtf()
.setnumfeatures(1000)
.setinputcol(tokenizer.getoutputcol)
.setoutputcol("features")
val lr = new logisticregression()
.setmaxiter(10)
.setregparam(0.01)
val pipeline = new pipeline()
.setstages(array(tokenizer, hashingtf, lr))
// fit the pipeline to training documents.
val model = pipeline.fit(training)
// make predictions on test documents.2.特徵提取,轉換以及特徵選擇model.transform(test)
.select("id", "text", "probability", "prediction")
.collect()
.foreach
2.1特徵提取
word2vec:將文件轉換成詞向量
countvectorizer:向量值計數
2.2特徵轉換
2.3特徵選擇
3.模型選擇與引數選擇
3.1 交叉驗證
將資料分為k分,每次測評選取乙份作為測試集,其餘為訓練集;
3.2 訓練集-測試集 切分
根據固定的比例將資料分為測試集和訓練集
**示例:
val cv = new crossvalidator().setestimator(pipeline)
.setevaluator(new binaryclassificationevaluator)
.setestimatorparammaps(paramgrid)
.setnumfolds(2) // use 3+ in practice
4.spark新增sparksession與dataset
WMS開發學習札記2
response是響應物件的請求,對客戶端發出的請求作出動態的響應,向客戶端傳送資料。當伺服器處理完你的請求資訊後,將處理結果發回給客戶端。response.redirect方法的作用是實現頁面的跳轉,跳轉到你所需要的url頁面,並且可以用此方法實現不同頁面之間的值的傳遞。語法 response.r...
ML學習筆記(2)邏輯回歸
邏輯回歸模型一般用來解決二分類問題,就是輸出y只有兩個離散值,例如判斷中是否有貓,0表示nocat,1表示cat。通過這個例子簡要介紹神經網路模型中一些標準化的 有效率的處理方法和notations。包含三個rgb通道,設描述一張尺寸 64,64,3 對這樣一張要將x 64,64,3 轉化為一維向量...
Spark學習筆記 2
val input sc.textfile file path val wordsrdd input.map x x.split method 1 val result wordsrdd.map x x,1 reducebykey x,y x y method 2 val result wordsr...