測試環境:
windows 7, orange 2.0b, python 2.7
構造的原始資料: (純測試用,無任何意義)
002250 10.1 0.01 n
601899 5.0 0.1 y
000001 6.0 0.1 y
000002 70.1 0.1 y
000003 55 0.2 y
000004 66 0.01 n
000005 33 0.01 n
000006 55 0.02 n
000007 55 0.15 y
000008 66 0.15 y
000009 77 0.02 n
000010 88 0.08 n
000011 100 0.05 n
000012 111 0.06 n
000013 34 0.07 n
000014 65 0.09 n
000015 99 0.11 y
000016 101 0.11 y
000017 44 0.11 y
000018 34 0.11 y
000019 43 0.15 y
處理流程:
[img]
生成的決策樹:
[img]
整體感覺:
[list]
[*]屬於傻瓜型軟體,具備較強的智慧型感知功能,適合初學者(特別是按這樣的懶人 :-))
[*]對於各種演算法的深入配置可能較弱(可能俺也不懂)
[/list]
資料探勘 決策樹
分類是資料探勘的乙個非常重要的主題,現實中的很多問題都和分類密切相關。我們日常正是因為有了分類技巧,才能對不同的事物 場景採取不同的應對方式。資料分類可以看做是乙個兩步的過程。第一步是學習過程,我們根據所需要分析的問題和資料建立乙個分類器classifier。用我們選擇好的訓練元組對分類器進行訓練,...
資料探勘 決策樹
決策樹是以樹狀結構表示資料分類的結果 非葉子結點代表測試的條件。分支代表測試的結果 1.資訊熵 informationentropy 是度量樣本集合純度最常用的一種指標。2.基尼係數 gini 是度量樣本集合不確定性指標。基尼指數與熵可近似看做是統一概念,都是越大,確定性越差 基尼指數和資訊熵的影象...
資料探勘中的決策樹
我們可以這麼說,如今我們所處的時代就是大資料時代,我們在大資料時代力爭做到從資料中獲得有用的知識以便於在未來的生活中加以運用,這就離不開資料探勘技術。所謂資料探勘並不是挖掘大量的資料,而是挖掘有用的資料,就像挖礦一樣,我們必須找到乙個我們需要的資料,這就用到了決策樹的知識。1.決策樹的現狀 現如今,...