大資料架構簡述(四) 機器學習和資料探勘

2021-08-01 23:24:28 字數 710 閱讀 1291

機器學習(machine learning, ml)是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、演算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的效能。

1)監督式學習

輸入「訓練資料」,每組資料有明確的標識或結果。監督式學習建立乙個學習過程,將**結果與「訓練資料」的實際結果進行比較,不斷調整**模型,直到模型的**結果達到乙個預期的準確率。監督學習的常見應用場景包括分類問題和回歸問題,常見演算法有邏輯回歸和bp神經網路

2)非監督式學習

資料並不被特別標識,學習模型是為了推斷出資料的乙個潛在結構。常見的應用場景包括關聯規則學習和聚類等。常見演算法包括apriori演算法和k-means演算法

3)半監督式學習

輸入資料部分被標識,部分沒有標識。這種學習模型可以用來**,但是模型首先要學習資料的內在結構,以便合理地組織資料進行**。其應用場景包括分類和回歸,常見演算法是對監督式學習演算法的延伸。這些演算法首先試圖對未標記的資料建模,然後在此基礎上進行**

1)回歸演算法

2)基於例項的演算法

3)正則化演算法

4)決策樹演算法

5)貝葉斯演算法

6)基於核的演算法

7)聚類演算法

8)關聯規則學習

9)人工神經網路演算法

10)深度學習演算法deep learning(深度學習)學習筆記整理

大資料中,機器學習和資料探勘的聯絡與區別

資料探勘是從海量資料中獲取有效的 新穎的 潛在有用的 最終可理解的模式的非平凡過程。資料探勘中用到了大量的機器學習界提供的資料分析技術和資料庫界提供的資料管理技術。從資料分析的角度來看,資料探勘與機器學習有很多相似之處,但不同之處也十分明顯,例如,資料探勘並沒有機器學習探索人的學習機制這一科學發現任...

大資料 Hadoop簡述

摘要 1個人 doug cutting 2個公司 google cloudera 命名由來 doug cutting 起先給他孩子的1個棕色的大象的玩具的名字 簡短 容易發音 易於拼寫 最初的模組 hdfs 與 mapreduce 後期不斷加入hbase hive等子模組專案,直至最終hadoop泛...

機器學習和資料探勘招聘

平台研究類 資料計算平台搭建,基礎演算法實現,當然,要求支援大樣本量 高維度資料,所以可能還需要底層開發 平行計算 分布式計算等方面的知識 演算法研究類 資料探勘類 商業智慧型,如統計報表 使用者體驗分析,流失使用者。有的應用方向比較成熟,業界有足夠的技術積累,比如搜尋 推薦,也有的方向還有很多開放...