網路 演算法 機器 優化 概率 統計we are drowning in information and starving for knowledge. -john naisbitt資料 矩陣 資訊 模型 推理
獲知識 靠學習
data -> model -> knowledge
mlstatistics
備註networks
graphs models
網路、圖/模型
weights
parameters
權重/引數
learning fitting or estimating
學習/擬合、估計
generalization 泛化 test set
可信度superised learning
regression/classification
回歸 分類
unsuperised learning
density estimating clustering
聚類統計機器學習–sml:
a field that bridges computation and statistics, with ties to information theory,
signal processing,algorithm, control theory, and optimization theory。
sml = matrix +optimization+algorithm+statistics
矩陣+優化+演算法+統計,本質是乙個最優化問題
n個資料 每個資料有p個特徵
x = (
x11 x12 … x1p,
x21 x22 … x2p,
…xn1, xn2 … xnp
)x1 = (x11 x12 … x1p)
1.降維 x1^p --> x1^q 由p維降到q維
線性降維聚類
3.分類
binary
x1 -> input
x2 -> output
分類問題,資料分三類:
1.訓練集
training data
模型+引數
e(y–>f(x,a))+c p(b)
2.validation data
驗證資料估c
測試資料(只有輸入)
4.regression 回歸
y 屬於r
回歸是乙個特殊的分類問題
5.ranking
(xi,yi)
least square estimation 最小二乘估計
i->n (yi-xi*a)^2
最大似然估計
高斯分布
統計機器學習
統計機器學習方法的三要素為 模型 策略 演算法。模型 即所要學習的條件概率分布或決策函式。模型的假設空間包含了所有可能的條件概率分布或決策函式。策略 統計機器學習的目標在於從模型的假設空間中選取最優模型,那麼策略就是需要考慮選取什麼樣的準測來學習 選擇最優模型。具體的策略有 經驗風險最小化 結構風險...
機器學習的統計基礎
從總體抽取乙個樣本量為n的樣本 x1 x2,xn x1,x2,xn x1,x2,xn 後,為了將分散在樣本中的資訊集中起來,需要構造出不同的樣本函式t x 1,x2 x n t x1,x2,xn t x1,x2,xn 稱為統計量。統計量與樣本概念不同,它是關於樣本的函式,並不依賴於總體的未知引數。x...
機器學習 統計學習
機器學習 一種讓計算機利用資料而非指令來進行各種工作的方法。計算機使用輸入給他的資料,利用人類賦予的演算法,得到某種模型的過程,其結果是使用該模型,未知資料資訊。在統計理論下的本質 它追求的是合理的假設空間 模型在數學上的適合場合 的選取和模型的泛化能力 模型在未知資料上的表現能力 統計學習 sta...