機器學習導論(一)

2021-09-28 07:45:13 字數 1483 閱讀 9525

改變了思維方式

資料重要性

資料資源——資料資產(增值)

方**資料分析

統計學(抽樣)——資料科學(大資料)

計算智慧型

複雜演算法

決策方面

基於目標決策 ——> 基於資料決策

業務方面

基於業務的資料化 ——> 基於資料的業務化

產業競合

以戰略為中心 ——> 以資料為中心

資料量大

tb–pb–zb

hdfs分布式檔案系統

資料種類多

結構化資料:mysql為主的儲存和處理

非結構化資料:影象、音訊等,hdfs、mr、hive

半結構化資料:xml形式、html形式,hdfs、mr、hive、spark

速度快資料增長速度快,使用hdfs儲存

資料的處理速度快,mr-hive-pig-impala(離線),spark-flink(實時)

價值密度低通過資料採集和資料儲存,機器學習是在大資料之上對資料的進一步分析。

人工智慧的三次浪潮

1、跳棋----專家系統

2、象棋----統計模型

3、圍棋----深度學習

人工智慧應用場景

影象識別

無人駕駛

智慧型翻譯

語音識別

醫療智慧型診斷

資料探勘

機器學習-人工智慧的關係

機器學習時人工智慧的乙個分支,深度學習是機器學習的一種方法。

資料探勘模式識別也屬於人工智慧

資料、資料分析、資料探勘和機器學習的關係

資料:即觀測值,如測量資料

資訊:可信資料

資料分析:從資料到資訊的整理、篩選和加工過程

資料探勘:對資訊進行價值化的分析

用機器學習的方法進行資料探勘,機器學習是一種方法,資料探勘是一件事情

機器學習,致力於研究如何通過計算(cpu和gpu計算)的手段,利用經驗來改善(計算機)系統自身的效能。在給定演算法結合資料構建模型,通過模型達到**的功能。

特定問題:不需要使用機器學習。

基於規則的學習是硬編碼的方式進行學習

基於模型的學習是通過資料構建機器學習模型,通過模型進行**

x(自變數、定義域–特徵)-----------------f(函式、對映–模型)------------------y(因變數、值域–結果)

最終目的是求解y=kx+b中的k和b

機器學習學習的就是模型中的k和b-----引數

機器學習(一)導論

今天的文章是機器學習的導論,這會像python基礎教程和爬蟲教程一樣是乙個 系列,但是在機器學習領域自己還沒入門,只是通過一次比賽接觸到機器學習使用了幾個模型罷了,這個系列單純把自己學習筆記和學習體會分享給大家,更新可能會比較慢,期待大家一起進步。首先,必須澄清乙個關於機器學習的最大錯誤觀念 機器學...

學習筆記 機器學習(一) 導論

這也是我自己非常關心的乙個問題吧,從我第一次聽到這個詞語,就對機器學習是什麼一直模糊不清!這個也可以參考 這裡我首先明白了上面的三種學習方式是根據學習任務的不同,機器學習可以細化為這四種!而這裡的學習任務的不同具體指的就是資料的不同 1 如果所給定訓練的資料都是標好 好 或者 壞 等這樣的標籤時 監...

機器學習導論

策略結構風險 正則化項 交叉驗證 混淆矩陣 roc曲線 回歸問題與分類問題本質上都是要建立對映關係 0 1損失 平方損失 絕對損失 對數損失 模型f x 關於訓練資料集的平均損失記為經驗損失 remp 期望風險remp是模型關於聯合分布的期望損失,經驗風險remp是模型關於訓練集的平均損失。根據大數...