樹模型演算法

2021-10-07 03:49:38 字數 2028 閱讀 5785

構建決策樹時通常採用自上而下的方法,在每一步選擇乙個最好的屬性來**。「最好」 的定義是使得子節點中的訓練集盡量的純(資訊增益最小,其中資訊增益=未用該屬性的上一層即**前的類別的熵值-用了該屬性即這一層本類別的熵值)。不同的演算法使用不同的指標來定義"最好"。

乙個描述鐵達尼號上乘客生存的決策樹 ("sibsp"指甲板上的兄妹和配偶)。每個決策葉下標識該類乘客的生存機率和觀察到的比率;

下面介紹幾個常用的指標。

基尼不純度指標在機器學習中,隨機森林是乙個包含多個決策樹的分類器,並且其輸出的類別是由個別樹輸出的類別的眾數而定。

隨機森林的引入最初是由華裔美國人何天琴於2023年[1]先提出的。[2]然後隨機森林由leo breiman於2023年在一篇**中提出的。[4]這篇文章描述了一種結合隨機節點優化和bagging,利用類cart過程構建不相關樹的森林的方法。此外,本文還結合了一些已知的、新穎的、構成了現代隨機森林實踐的基礎成分,特別是

使用out-of-bag誤差來代替泛化誤差

通過排列度量變數的重要性

特別的,生長很深的樹容易學習到高度不規則的模式,即過學習(也即過擬合),在訓練集上具有低偏差和高方差的特點。隨機森林是平均多個深決策樹以降低方差的一種方法,隨機森林中決策樹是在乙個資料集上的不同部分進行訓練的。[5]這是以偏差的小幅增加和一些可解釋性的喪失為代價的,但是在最終的模型中通常會大大提高效能。

特徵的重要性

out-of-bag誤差是什麼?我不懂!!!!

隨機森林天然可用來對回歸或分類問題中變數的重要性進行排序。下面的技術來自breiman的**,r語言包randomforest包含它的實現。

度量資料集 d的特徵重要性的第一步是,使用訓練集訓練乙個隨機森林模型。在訓練過程中記錄下每個資料點的out-of-bag誤差,然後在整個森林上進行平均。

為了度量第i個特徵的重要性,第i個特徵的值在訓練資料中被打亂,並重新計算打亂後的資料的out-of-bag誤差。則第i個特徵的重要性分數可以通過計算打亂前後的out-of-bag誤差的差值的平均來得到,這個分數通過計算這些差值的標準差進行標準化。

產生更大分數的特徵比小分數的特徵更重要。這種特徵重要性的度量方法的統計定義由zhu et al.給出。

這種度量方法也有一些缺陷。對於包含不同取值個數的類別特徵,隨機森林更偏向於那些取值個數較多的特徵,partial permutations、growing unbiased trees可以用來解決這個問題。如果資料報含一些相互關聯的特徵組,那麼更小的組更容易被選擇。

梯度提公升(梯度增強)是一種用於回歸和分類問題的機器學習技術,其產生的**模型是弱**模型的整合,如採用典型的決策樹 作為弱**模型,這時則為梯度提公升樹(gbt或gbdt)提公升方法一樣,它以分階段的方式構建模型,但它通過允許對任意可微分損失函式進行優化作為對一般提公升方法的推廣。(對比xgboost,它的弱分類學習器是cart)

梯度提公升的思想源自leo breiman的乙個觀察:即可以將提公升方法解釋為針對適當成本函式的優化演算法。 [1]顯式回歸梯度增強演算法隨後由jerome h. friedman [2] [3]給出,同時llew mason,jonathan baxter,peter bartlett和marcus frean在兩篇**中給出更一般的函式空間上的梯度提公升觀點。 [4] [5]這兩篇**介紹了將boosting演算法看作函式空間上的梯度下降迭代演算法的觀點。即,將其視為通過迭代地選擇指向負梯度方向的函式(弱**模型)來優化函式空間上的成本函式的演算法。這種將提公升視為函式梯度的觀點導致了除回歸和分類之外的許多機器學習和統計領域中提公升演算法的發展。

決策樹演算法模型(一)

優點 可讀性高 分類速度快 非引數型 缺點 容易過擬合,可能陷入區域性最小值 準則 損失函式 正則化的極大似然函式 1 id3演算法 資訊增益 決策樹的生成 輸入 訓練資料集d dd,特徵集a aa,閾值 varepsilon 輸出 決策樹t 1 若d中所有例項屬於同一類c kc k ck 則t為單...

樹模型 ID3演算法

id3演算法的核心是在資料集上應用資訊增益準則來進行特徵選擇,以此遞迴的構建決策樹,以資訊熵和資訊增益為衡量標準,從而實現對資料的歸納分類。id3演算法需要解決的問題是如何選擇特徵作為劃分資料集的標準。在id3演算法中,選擇資訊增益最大的屬性作為當前的特徵對資料集分類 資訊增益需要涉及到熵,條件熵這...

推薦系統的排序演算法 樹模型

1.2 決策樹的整合演算法 1.3 決策樹整合演算法案例 2.整合學習 主要包括決策樹 隨機森林 rf gbdt gbdt lr和深度森林。樹模型的優點是可以通過有監督的方式進行特徵的自動交叉和選擇,也是整合學習中的常用方法或組成部分,樹模型在工業界常用的方法有gbdt lr和xgboost。決策樹...