from sklearn import tree
# 從sklearn中匯入tree
from sklearn import datasets, model_selection
# 從sklearn中匯入datasets用於載入資料集,這裡我們使用iris資料集
# 從sklearn中匯入model_selection使用者劃分測試集和訓練集合
iris = datasets.load_iris(
)# 總共150個樣本,維度為4維
x = iris.data
y = iris.target
# 劃分訓練集和測試集 8:2
x_train,x_test, y_train, y_text = model_selection.train_test_split(x, y, test_size=
0.2, random_state=0)
# 建立一顆分類樹,預設使用gini
classification_tree = tree.decisiontreeclassifier(
)classification_tree.fit(x_train, y_train)
# 輸出每個特徵的重要性
print
(classification_tree.feature_importances_)
# 產生**
print
(classification_tree.predict(x_test)
)
xgboost特徵重要性
from sklearn.model selection import train test split from sklearn import metrics from sklearn.datasets import make hastie 10 2 from xgboost.sklearn im...
決策樹 特徵選擇
決策樹的特徵選擇標準有兩種 資訊增益,資訊增益比 0.熵指不穩定程度。熵越大,不穩定程度越高,則越容易 決策樹中也指某結點內含資訊量較多,分類能力較差.計算公式 其中,pi為隨機變數x在樣本空間的分布,即第i個型別出現的概率。為i到n求和。n為特徵取值種類數量.ps 為何使用這樣的乙個函式?xlog...
論特徵的重要性
特徵工程有多重要,可以引用一句話來表達 資料和特徵決定了模型的上限,演算法只是在幫忙逼近這個上限。好的特徵是決定乙個模型準確率的關鍵,那問題來了?什麼是特徵呢,特徵就是資料對於結果的一種描述。比如我們形容乙個人是否漂亮,那她的眼睛大小 鼻子的形狀 臉型都是特徵。通常,當獲得乙份結構化資料的時候,如果...