演算法 機器學習導論

2021-10-03 14:42:38 字數 1667 閱讀 6896

第二部分:機器學習

備註:資料量大;

資料種類多:結構化資料(mysql)、非結構化資料(影象、音訊)、半結構化資料(xml、html);

速度快:資料的增長速度快、處理速度快;

價值密度低:價值高,資料總量大,需要機器學習演算法解決問題。

資料採集層:ftp、socket方式

資料儲存層:hdfs

資料分析層:mr\hive\impala\spark

機器學習層:在大資料處理後的應用

資料站時層:oracle + ssm

機器學習位於大資料上層,完成的是在大資料基礎的資料儲存和資料計算之上,通過資料結合機器學習演算法構建機器學習模型,利用模型對現實事件做出**。

人工智慧應用:影象識別、無人駕駛、智慧型翻譯、語音識別、醫療智慧型診斷、資料探勘。

機器學習是人工智慧的乙個分支,深度學習是實現機器學習的一種技術。

資料:即觀測值,如測量資料。

資訊:可信的資料。

資料分析:從資料資訊的整理、篩選和加工過程。

資料探勘:對資訊進行價值化的分析。

用機器學習的方法進行資料探勘。機器學習是一種方法;資料探勘是一件事情;還有乙個相似的概念就是模式識別,這也是一件事情,而現在流行的深度學習技術只是機器學習的一種。

致力於研究如何通過計算(cpu和gpu計算)的手段,利用經驗來改善(計算機)系統自身的效能。

主要內容是關於在計算機上從資料中產生「模型(model)」演算法(學習演算法),資料+機器學習演算法=機器學習模型,有了學習演算法就可以根據經驗資料產生模型。

機器學習學習的是模型中的引數

1.hdfs:hadoop distributed file system,hadoop分布式檔案系統,被設計成適合執行在通用硬體(commodity hardware),hdfs能提供高吞吐量的資料訪問,非常適合大規模資料集上的應用。

2.hive:基於hadoop的乙個資料倉儲工具,用來進行資料提取、轉化、載入,這是一種可以儲存、查詢和分析儲存在hadoop中的大規模資料的機制。hive資料倉儲工具能將結構化的資料檔案對映為一張資料庫表,並提供sql查詢功能,能將sql語句轉變成mapreduce任務來執行。

hive的優點是學習成本低,可以通過類似sql語句實現快速mapreduce統計,使mapreduce變得更加簡單,而不必開發專門的mapreduce應用程式。hive是十分適合資料倉儲的統計分析和windows登錄檔檔案。

hive 構建在基於靜態批處理的hadoop 之上,hadoop通常都有較高的延遲並且在作業提交和排程的時候需要大量的開銷。因此,hive 並不能夠在大規模資料集上實現低延遲快速的查詢,例如,hive 在幾百mb 的資料集上執行查詢一般有分鐘級的時間延遲。

3.impala:cloudera公司主導開發的新型查詢系統,提供sql語義,能查詢儲存在hadoop的hdfs和hbase中的pb級大資料。已有的hive系統雖然也提供了sql語義,但由於hive底層執行使用的是mapreduce引擎,仍然是乙個批處理過程,難以滿足查詢的互動性。相比之下,impala的最大特點就是它的快速。

機器學習導論

策略結構風險 正則化項 交叉驗證 混淆矩陣 roc曲線 回歸問題與分類問題本質上都是要建立對映關係 0 1損失 平方損失 絕對損失 對數損失 模型f x 關於訓練資料集的平均損失記為經驗損失 remp 期望風險remp是模型關於聯合分布的期望損失,經驗風險remp是模型關於訓練集的平均損失。根據大數...

機器學習導論二

監督學習 訓練資料集每個樣本均有個已知的輸出項。分類演算法 決策樹演算法 knn貝葉斯演算法 svm演算法 lr演算法 回歸 線性回歸 lasso回歸 ridge回歸 無監督學習 非監督學習 降維 pca lda 半監督學習 了解 一部分有類別標籤,一部分沒有類別標籤。強化學習 了解 遷移學習 了解...

機器學習導論(一)

改變了思維方式 資料重要性 資料資源 資料資產 增值 方 資料分析 統計學 抽樣 資料科學 大資料 計算智慧型 複雜演算法 決策方面 基於目標決策 基於資料決策 業務方面 基於業務的資料化 基於資料的業務化 產業競合 以戰略為中心 以資料為中心 資料量大 tb pb zb hdfs分布式檔案系統 資...