一丶大資料分析和人工智慧已經成為整個社會發展最主要的基礎推動力,兩者的基礎都是機器學習。
大資料分析火熱的深刻原因:
模型和計算能力:深度學習(模型顯示),gpu(加快深度學習的訓練),分布式系統(提高訓練的能力,水平)。
廣泛的應用場景:營銷,廣告,金融,交通,醫療等。
二丶data -------> y=f(x)
data:資料
x:表示,特徵,指標
f:模型
y:智慧型,也即**任務或目標
三丶大資料:資料採集,資料清洗,資料分析和資料應用的整個流程中的理論,技術和方法
機器學習:大資料分析的核心內容。機器學習解決的是找到將x和y關聯的模型f,從data到x的步驟通常是人工完成的(特徵工程)
四丶機器學習方法的分類
有監督的學習:
資料集中的樣本帶有標籤,有明確的目標(數學題,有標準答案)
回歸和分類
目標:找到樣本到標籤的最佳對映(找到確切的f)( y=f(x))
應用場景:垃圾郵件分類,病理切片,客戶流失預警,客戶風險評估,房價**等。
典型方法:
回歸模型:線性回歸,嶺回歸,lasso和回歸樣條等。
分類模型:邏輯回歸,k近鄰,決策樹,支援向量機等。
無監督的學習:
資料集中的樣本沒有標籤,沒有明確的目標( y=f(x), y 未知)
聚類,降維,排序,密度估計,關聯規則挖掘
聚類:將資料集中相似的樣本進行分組,使得:
同一組物件之間盡可能相似;
不同組物件之間盡可能不相似。
醫用場景:
基因表達水平聚類:根據不同基因表達的時序特徵進行聚類,得到基因表達處於訊號通路上游還是下游的資訊。
客戶分析:把客戶細分成不同客戶群,每個客戶群都有相似行為,做到準確營銷
強化學習:
智慧型決策的過程,通過過程模擬和觀察來不斷學習,提高決策能力
例如:alphago(類似於人 自我學習 )
資料集:一組樣本
樣本:資料集的一行。乙個樣本包含乙個或者多個特徵,此外還可能有乙個標籤。
特徵:在進行**是使用的輸入變數。
樣本示例: 標籤為y 特徵為x
訓練集:用於訓練模型的資料集
測試集:用於測試模型的資料集合
模型:建立資料的輸入x和輸出y之間的對映關係 y=f(x)
損失函式: l(yi,f(xi))
過度擬合:
交叉驗證:重複的使用資料。將資料集隨機切分,將切分的資料集組合為訓練集和測試集,在此基礎上反覆進行訓練,測試和模型選擇。
k折交叉驗證:(資料集不是特別大 )
機器學習十講 第一講
我們將機器學習定義為一組能夠自動檢測模式資料的方法,然後利用未發現的模式來 未來的資料,或者在不確定的情況下執行各種決策 例如計畫如何收集更多的資料 模型和計算能力 深度學習 gpu 分布式系統 廣泛的應用場景 營銷 廣告 金融 交通 醫療等 是指資料採集 資料清洗 資料分析和資料應用的整個流程中的...
機器學習 第一講
在監督學習中,我們給出資料組,並且已經知道正確的輸出是什麼樣,明確輸入和輸出之間的關係。監督學習問題可以歸類為回歸 regression 和分類 classification 問題。在回歸問題上,我們嘗試 乙個連續 continuous 的輸出結果,也就是說我們嘗試去map輸入變數到一些連續的方程。...
機器學習第一講
含義 資料集中的樣本帶有標籤,有明確目標 回歸模型 線性回歸 嶺回歸 lasso和回歸樣條等 分類模型 邏輯回歸 k近鄰 決策樹 支援向量機等 垃圾郵件分類 病理切片分類 客戶流失預警 客戶風險評估 房價 等。資料集中的樣本沒有標籤,沒有明確目標 無監督學習 根據資料本身的分布特點,挖掘反映資料的內...