改變了思維方式
資料重要性
資料資源——資料資產(增值)
方**資料分析
統計學(抽樣)——資料科學(大資料)
計算智慧型
複雜演算法
決策方面
基於目標決策 ——> 基於資料決策
業務方面
基於業務的資料化 ——> 基於資料的業務化
產業競合
以戰略為中心 ——> 以資料為中心
資料量大
tb–pb–zb
hdfs分布式檔案系統
資料種類多
結構化資料:mysql為主的儲存和處理
非結構化資料:影象、音訊等,hdfs、mr、hive
半結構化資料:xml形式、html形式,hdfs、mr、hive、spark
速度快資料增長速度快,使用hdfs儲存
資料的處理速度快,mr-hive-pig-impala(離線),spark-flink(實時)
價值密度低通過資料採集和資料儲存,機器學習是在大資料之上對資料的進一步分析。
人工智慧的三次浪潮
1、跳棋----專家系統
2、象棋----統計模型
3、圍棋----深度學習
人工智慧應用場景
影象識別
無人駕駛
智慧型翻譯
語音識別
醫療智慧型診斷
資料探勘
機器學習-人工智慧的關係
機器學習時人工智慧的乙個分支,深度學習是機器學習的一種方法。
資料探勘、模式識別也屬於人工智慧
資料、資料分析、資料探勘和機器學習的關係
資料:即觀測值,如測量資料
資訊:可信資料
資料分析:從資料到資訊的整理、篩選和加工過程
資料探勘:對資訊進行價值化的分析
用機器學習的方法進行資料探勘,機器學習是一種方法,資料探勘是一件事情。
機器學習,致力於研究如何通過計算(cpu和gpu計算)的手段,利用經驗來改善(計算機)系統自身的效能。在給定演算法結合資料構建模型,通過模型達到**的功能。
特定問題:不需要使用機器學習。
基於規則的學習是硬編碼的方式進行學習
基於模型的學習是通過資料構建機器學習模型,通過模型進行**
x(自變數、定義域–特徵)-----------------f(函式、對映–模型)------------------y(因變數、值域–結果)
最終目的是求解y=kx+b中的k和b
機器學習學習的就是模型中的k和b-----引數
機器學習(一)導論
今天的文章是機器學習的導論,這會像python基礎教程和爬蟲教程一樣是乙個 系列,但是在機器學習領域自己還沒入門,只是通過一次比賽接觸到機器學習使用了幾個模型罷了,這個系列單純把自己學習筆記和學習體會分享給大家,更新可能會比較慢,期待大家一起進步。首先,必須澄清乙個關於機器學習的最大錯誤觀念 機器學...
學習筆記 機器學習(一) 導論
這也是我自己非常關心的乙個問題吧,從我第一次聽到這個詞語,就對機器學習是什麼一直模糊不清!這個也可以參考 這裡我首先明白了上面的三種學習方式是根據學習任務的不同,機器學習可以細化為這四種!而這裡的學習任務的不同具體指的就是資料的不同 1 如果所給定訓練的資料都是標好 好 或者 壞 等這樣的標籤時 監...
機器學習導論
策略結構風險 正則化項 交叉驗證 混淆矩陣 roc曲線 回歸問題與分類問題本質上都是要建立對映關係 0 1損失 平方損失 絕對損失 對數損失 模型f x 關於訓練資料集的平均損失記為經驗損失 remp 期望風險remp是模型關於聯合分布的期望損失,經驗風險remp是模型關於訓練集的平均損失。根據大數...