監督學習/無監督學習/強化學習/遷移學習;
演算法:線性回歸/k-近鄰演算法/決策樹/隨機森林/pca/神經網路;
將標註好的和測試的樣本對映到座標系中,選取距離該測試樣本歐式距離最近的k個訓練樣本,其中哪個訓練樣本佔比最大,我們就認為它是該測試樣本所屬類別。knn可以處理數值型和標稱型資料,原因在於計算的時間空間複雜度都太高。
構建決策樹,每次選擇讓整體資料夏農熵減小最多的特徵,使用特徵值對資料進行劃分,每次消耗乙個特徵,不斷迭代分類,直到所有特徵消耗完或剩下的資料全為同一類別,不必繼續劃分,至此決策樹構建完成。
先計算聯合概率分布,再利用貝葉斯公式計算給定某個樣本資料後,被分到每個類別的概率分別是多少,然後取最大的那個最為該樣本資料的類別。
我們被給予一堆x維的資料,希望通過一條直線將這對資料正確的分為兩類。我們建立乙個線性分類模型。先設定廚師響亮,輸入訓練資料後,將得到的引數代入sigmoid函式,將0.5設為閾值,大於0.5的為一類,其他為另一類。訓練過程為先利用最大似然估計得到目標函式,再利用梯度上公升演算法優化目標函式,使得訓練樣本生成概率最大化。
降1維來分隔資料,距離平面最近的點叫做支援向量,利用smo最大化支援向量到分隔面的距離,我們計算樣本點到分隔超平面的函式間隔,間隔為正則分類正確。若資料不是線性可分的,則引入核函式將資料從低維空間對映到高維空間,將非線性問題變為線性問題。
adaboost通過組合多個弱分類器來構建乙個強分類器,為每乙個樣本都賦予其乙個權重,最後綜合多個弱分類器的分類結果和其對應的權重的道**結果。
線性回歸:
最小二乘法/區域性加權線性回歸/嶺回歸/前向逐步回歸/樹回歸。
knn/決策樹/邏輯回歸和svm都屬於判別方法,樸素貝葉斯屬於生成方法。
選擇k個初始點作為質心,然後為每個樣本點找最近的質心,並將其分配給對應的簇,然後將每個簇的質心更新為該簇所有點的平均值。質心位置改變,對樣本點的劃分也隨之改變,不斷迭代直到所有樣本點的分類都不再改變,也叫演算法收斂。
根據所給資料構建乙個項集,然後判斷每個項集的支援度。去掉不足的項集,再組合一元素項集構建二元素項集,再去掉支援度不足的項集,知道不存在擁有更多元素的頻繁項集。之後是發現關聯規則,利用分級法,先生成右邊只有乙個元素的關聯規則,然後判斷每條哦規則的可信度,去掉那些不足的,將剩下的拆分子集,生成右邊有兩個元素的關聯規則,不斷迭代直到不存在右側有更多元素的關聯規則。
一次構建fp樹,一次從fp樹中挖掘頻繁項集。常被用作聯想輸入。
其他工具:利用pca和svd來簡化資料
y=kx+b,推測出k值的過程稱為回歸,引數是b。
理解環境/不需要理解環境
樣本/特徵/模型/關係遷移法
機器學習綜述
機器學習 machine learning,ml 是一門多領域交叉學科,涉及概率論 統計學 逼近論 凸分析 演算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的效能。基本目標是學習乙個x y的函式 對映 來做分類或者回...
機器學習(一)綜述
剛碩士畢業了,趁著對所學知識還有記憶,趕快把之前筆記整理下,寫成部落格也方便整理。機器學習真是一門詭異的課程啊,感覺學了什麼又感覺什麼也沒學 主要內容 機器學習的基本過程 評估機器學習演算法 交叉檢驗 機器學習分為 監督學習 分類 1.1 決策樹 1.2 knn 1.3 svm 1.4 人工神經網路...
統計機器學習綜述
記錄學習心得 一 什麼是機器學習 統計學習 統計學習就是根據資料來構建概率統計模型並用該模型對資料進行 與分析。那麼其中可以看出,資料是基礎,目的是對資料進行 與分析。根據定義可以提出幾個問題 需要什麼樣的資料?構建什麼樣的模型?以什麼方法構建?如何評價構建出來的模型的好壞?1 需要什麼樣的資料 需...