1.機器學習介紹
機器學習(machine learning, ml)是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、演算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的效能。
機器學習演算法是從資料中自動分析獲得規律,並利用規律對未知資料進行**的演算法。
機器學習可分為以下幾種類別
• 監督學習:輸入資料被稱為訓練資料,它們有已知的標籤和結果。常見的演算法包括回歸分析和統計分類
• 無監督學習:輸入資料不帶標籤或者沒有乙個已知的結果。常見演算法有聚類
• 半監督學習:輸入資料由帶標籤和不帶標籤組成。有分類和回歸
• 強化學習:輸入資料作為作為來自環境的激勵供給模型,且模型做出反應。反饋作為環境的懲罰或獎賞。包括q學習,時序差分學習。
常見演算法
• 分類和回歸-----線性回歸、邏輯回歸、貝葉斯分類、決策樹分類等
• 聚類----kmeans聚類、lda主題、knn等
• 關聯規則-----apriori、fpgrowth等
• 推薦-----協同過濾、als等
• 神經網路-----bp、rbf、 svm等
• 深度神經網路等
2.spark介紹
引用官網一句話:apache spark™ is a unified analytics engine for large-scale data processing.
spark, 是一種"one stack to rule them all"的大資料計算框架, 期望使用乙個技術堆疊就 完美地解決大資料領域的各種計算任務。spark使用spark rdd、 spark sql、 spark streaming、 mllib、 graphx成功解決了大數 據領域中, 離線批處理、 互動式查詢、 實時流計算、 機器學習與圖計算等最重要的任務和問題。
• spark core用於離線計算
• spark sql用於互動式查詢
• spark streaming用於實時流式計算
• spark mllib用於機器學習
• spark graphx用於圖計算
3.spark mllib介紹
spark mllib 是spark中可以擴充套件的機器學習庫,它有一系列的機器學習演算法和實用程式組成。包括分類、回歸、聚類、協同過濾、等,還包含一些底層優化的方法
• 機器學習演算法:常規機器學習演算法包括分類、回歸、聚類和協同過濾。
• 特徵工程:特徵提取、特徵轉換、特徵選擇以及降維。
• 管道:構造、評估和調整的管道的工具。
• 儲存:儲存和載入演算法、模型及管道
• 實用工具:線性代數,統計,資料處理等。
Spark MLlib 偽逆演算法
1.矩陣的逆 定義 設a是數域上的乙個n階方陣,若在相同數域上存在另乙個n階矩陣b,使得 ab ba i。則我們稱b是a的逆矩陣,而a則被稱為可逆矩陣。條件 a是可逆矩陣的充分必要條件 a是非奇異矩陣 當 a 0 時,也就是a的行列式不等於0時,a稱為非奇異矩陣 性質 矩陣a可逆的充要條件是a的行列...
Spark mllib 保序回歸
從該序列的首元素往後觀察,一旦出現亂序現象停止該輪觀察,從該亂序元素開始逐個吸收元素組成乙個序列,直到該序列所有元素的平均值小於或等於下乙個待吸收的元素。舉例 原始序列 9,10,14 結果序列 9,10,14 分析 從9往後觀察,到最後的元素14都未發現亂序情況,不用處理。原始序列 9,14,10...
Spark MLlib例項 決策樹
spark mllib例項 決策樹 通俗來說,決策樹分類的思想類似於找物件。現想象乙個女孩的母親要給這個女孩介紹男朋友,於是有了下面的對話 女兒 多大年紀了?母親 26。女兒 長的帥不帥?母親 挺帥的。女兒 收入高不?母親 不算很高,中等情況。女兒 是公務員不?母親 是,在稅務局上班呢。女兒 那好,...