microsoft 決策樹演算法是由 microsoft sql server analysis services 提供的分類和回歸演算法,用於對離散和連續屬性進行**性建模。
對於離散屬性,該演算法根據資料集中輸入列之間的關係進行**。對於連續屬性,該演算法使用線性回歸確定決策樹的拆分位置。
如果將多個列設定為可**列,或輸入資料中包含設定為可**的巢狀表,則該演算法將為每個可**列生成乙個單獨的決策樹。
microsoft 決策樹演算法不允許使用連續資料型別作為輸入;因此,如果任何列具有連續數值資料型別,將對該值進行離散化處理。該演算法在拆分點針對所有連續屬性執行其自己的離散化處理。analysis services 自動選擇對連續屬性進行裝桶的方法;但是,通過將挖掘結構列的內容型別設定為discretized,並設定 discretizationbucketcount
或 discretizationmethod
屬性,您可以控制如何離散化輸入中的連續值。
microsoft 決策樹演算法是一種混合演算法,它可以建立功能相差很大的多種模型:決策樹可以表示關聯和規則,甚至線性回歸。樹的結構實質上都是相同的,但如何解釋資訊則取決於您建立模型的目的。
演算法的原理
microsoft 決策樹演算法通過在樹中建立一系列拆分來生成資料探勘模型。這些拆分以「節點」來表示。每當發現輸入列與可**列密切相關時,該演算法便會向該模型中新增乙個節點。該演算法確定拆分的方式不同,主要取決於它**的是連續列還是離雜湊。
microsoft 決策樹演算法使用「功能選擇」來指導如何選擇最有用的屬性。所有 analysis services 資料探勘演算法均使用功能選擇來改善分析的效能和質量。功能選擇對防止不重要的屬性占用處理器時間意義重大。如果在設計資料探勘模型時使用過多的輸入或可**屬性,則可能需要很長的時間來處理該模型,甚至導致記憶體不足。用於確定是否拆分樹的方法包括對「平均資訊量」和 bayesian 網路的行業標準度量。
資料探勘模型中的常見問題是該模型對定型資料中的細微差異過於敏感,這種情況稱為「過度擬合」或「過度定型」。過度擬合模型無法推廣到其他資料集。為避免模型對任何特定的資料集過度擬合,microsoft 決策樹演算法使用一些技術來控制樹的生長。
**離雜湊
通過柱狀圖可以演示 microsoft 決策樹演算法為可**的離雜湊生成樹的方式。下面的關係圖顯示了乙個根據輸入列 age 繪出可**列 bike buyers 的柱狀圖。該柱狀圖顯示了客戶的年齡可幫助判斷該客戶是否將會購買自行車。
該關係圖中顯示的關聯將會使 microsoft 決策樹演算法在模型中建立乙個新節點。
隨著演算法不斷向模型中新增新節點,便形成了樹結構。該樹的頂端節點描述了客戶總體可**列的分解。隨著模型的不斷增大,該演算法將考慮所有列。
當 microsoft 決策樹演算法根據可**的連續列生成樹時,每個節點都包含乙個回歸公式。拆分出現在回歸公式的每個非線性點處。例如,請看下面的關係圖。
該關係圖包含可通過使用一條或兩條連線建模的資料。不過,一條連線將使得模型表示資料的效果較差。相反,如果使用兩條連線,則模型可以更精確地逼近資料。兩條連線的相交點是非線性點,並且是決策樹模型中的節點將拆分的點。例如,與上圖中的非線性點相對應的節點可以由以下關係圖表示。兩個等式表示兩條連線的回歸等式。
決策樹模型所需的資料
在準備用於決策樹模型的資料時,應了解特定演算法的要求,其中包括所需的資料量以及資料的使用方式。
決策樹模型的要求如下:
注釋
決策樹演算法原理簡介
1,決策樹概念簡介 不同的演算法模型適合於不同型別的資料。首先,在了解樹模型之前,自然想到樹模型和線性模型有什麼區別呢?其中最重要的是,樹形模型是乙個乙個特徵進行處理,之前線性模型是所有特徵給予權重相加得到乙個新的值。決策樹與邏輯回歸的分類區別也在於此,邏輯回歸是將所有特徵變換為概率後,通過大於某一...
決策樹原理
目錄 決策樹基本知識 id3 與c4.5 cart 應用 1.我們遇到的選擇都是根據以往的選擇判斷,如果把判斷背後的邏輯整理成乙個結構圖,會是乙個樹狀圖,就是決策樹的本質.2.決策樹的階段 構造與剪枝 構造 選擇什麼屬性作為結點 1 根節點 樹的頂端 2 內部節點 中間節點 3 葉節點 決策節點 剪...
決策樹01 決策樹的原理
此筆記根據 machine learning in action 和周志華教授的 機器學習 所作。缺點 可能會產生過度匹配問題。適用資料型別 數值型和標稱型 machine learning in action if so return 類標籤 else 尋找劃分資料集的最好特徵 劃分資料集 建立分...