1.pca主成分分析
主成分分析(principal component analysis,pca), 是一種統計方法。通過正交變換將一組可能存在相關性的變數轉換為一組線性不相關的變數,轉換後的這組變數叫主成分。
無監督的學習,往特徵量最大的特徵向量的分銷商投影
pca的主要問題
沒有考慮類別號
進行主成分分析主要步驟如下:
1. 指標
資料標準化(
spss軟體自動執行);
2. 指標之間的相關性判定;
3. 確定主成分個數m;
4. 主成分fi表示式;
5. 主成分fi命名;
2.lda
discriminant
analysis就是根據研究物件的
各種特徵值判別其型別歸屬問題的一種多變數統計分析方法。
監督的學習
盡量保持類區別的情況下進行降維
lda至多可生成c-1維子空間
lda不適合對非高斯分布的樣本進行降維
lda在樣本分類資訊依賴方差而不是均值時,效果不好。
lda可能過度擬合資料。
lda和pca比較
兩者都是為了在對原始資料降維之後進行分類。pca是無監督的方式,它沒有分類標籤,降維之後需要採用k-means或自組織對映網路等無監督的演算法進行分類。lda是有監督的方式,它先對訓練資料進行降維,然後找出乙個線性判別函式。
回歸分析(regression analysis)是確定兩種或兩種以上變數間相互依賴的定量關係的一種統計分析方法。
越大越好 差值的平方和 sum spuares total
4.馬爾科夫系統
將來只與現在有關而與過去無關。
隱馬爾科夫系統
狀態不是直接可見的但是由它導致的結果是可見的,而且每個狀態是以一定的概率導致出某種結果。
hmm中典型的馬爾可夫問題
已知隱馬爾科夫模型的引數**移概率矩陣和發射概率矩陣),已知隱馬爾科夫模型的引數**移概率矩陣和發射概率矩陣)和輸出序列,找出最有可能產生這種輸出序列的狀態序列。
已知隱馬爾科夫模型的引數**移概率矩陣和發射概率矩陣)和輸出序列,找出最有可能產生這種輸出序列的狀態序列。
已知隱馬爾科夫模型的引數**移概率矩陣和發射概率矩陣),計算某乙個輸出序列發生的概率。
決策樹模型
在沿著決策樹從上到下遍歷的過程中,在每個節點都會遇到乙個問題,對每個節點上問題的不同回答導致不同的分支,最後會到達乙個葉子節點。這個過程就是利用決策樹進行分類的過程,利用幾個變數(每個變數對應乙個問題)來判斷所屬的類別(最後每個葉子會對應乙個類別)。
whatis occam』s razor?
如無必要,勿增實體
如果對於同一現象有兩種不同的假說,我們應該採取比較簡單的那一種
what is infor
資訊熵是資訊量的期望i代表
s的第i個取值
how to use information entropy in dt?
計算資訊增益,選擇使得資訊增益最大的屬性作為分類屬性以使得分支數盡可能簡單。
whatis the main issue with information entropy?
傾向於選擇有多個屬性值的屬性,一種極端的情況是某個包含
n個資料點的資料集的某個屬性也有
n個屬性值,如果用資訊增益作為屬性選擇度量,就一定會選擇這個屬性,但是這種分類顯然毫無意義。
whyand how to do pruning in dt?
因為每一條自根節點到葉子節點的路徑都對應一條規則,所以樹的深度越大,其對應的規則越長就越難被人理解,還有過度擬合現象的存在,所以無論是從決策樹的分類精度,還是從其規模以及可理解性角度考慮,對與決策樹的剪枝是非常有必要的,需要通過剪枝(簡化過程)來提高泛化能力
剪枝的兩種方式:前剪枝和後剪枝
合併或聯合兩個葉節點,如果能引起令人滿意的不純度增長。
從葉節點往上回溯,比較剪掉該葉節點前後的損失函式的值,如果剪掉後,損失函式更小就剪掉
howto handle continuous attributes in dt?
設定閾值將屬性值分成幾個區域
排序演算法(部分)
快速排序會犧牲陣列中的乙個資料,所以實際的陣列長度,會比真實的資料多一,其中會將下面所說的標誌位賦值給arr 0 以犧牲陣列中arr 0 為例 快速排序主要思想 在陣列角標從left到right之間,取左邊第乙個數作為標誌位,將標誌位賦值給arr 0 然後分兩步迴圈判斷 這兩步順序不能混亂 1.從右...
《演算法之道》精華 經典演算法部分
折半插入排序 歸併排序 快排 任何基於比較的排序,決策樹高度至少為nlog n 計數排序 基數排序 桶排序 快速次序選擇 求第k大的數 線性最差快速次序選擇 折半搜尋 常數搜尋 雜湊搜尋 乘法雜湊 開放定址雜湊 雜湊碰撞時縱深擴充套件,新增乙個鍊錶 封閉定址雜湊 雜湊碰撞時為元素找到另乙個位置 非線...
SGBM立體演算法部分概念
opencv sgbm 立體匹配 stereo matching 目標是從不同視點影象中找到匹配的對應點,計算機視覺中的重要又困難的問題 深度計算 視差視差圖 拖尾效應 亞畫素化 kitti 代價計算 互資訊影象的概率分布p是什麼意思?答案一句話,影象的灰度直方圖 影象的灰度值是0 255,每個灰度...