整理整理最近的學習心得,理論和實踐各寫一文。本文是對理論的整理。
主要知識來自於以下兩本書
1.《資料探勘基礎教程》(印)
k.p.soman shyam diwakar 2.
《資料探勘技術
-- 市場營銷、銷售與客戶關係管理領域應用》(美)
michael j.a.berry
先做個簡單的評價,第1
本書的亮點是決策樹那章,這是我見到的書中講得最詳細的。第2
本書的亮點是人工神經網路那章,這是我見到的書中講得最詳細的。另外,第二本書提供了大量例項,概念的描述依託於這些例項。這使得理解變得很容易。
現在,開始做內容整理。
@協同過濾
為什麼要使用協同過濾?最前提的假設是,尋找資訊的人應當能利用人們已經發現和評估的資訊。
@資料探勘的挑戰
演算法的並行式版本,分布式版本,非記憶體版本
@資料探勘的主要型別
型別1-
分類學習
分類學習的輸出形式
: 決策樹、神經網路、規則
型別2-
關聯學習
型別3-
聚類聚類的輸出形式
: 表、
venn
圖、樹狀圖、自組織對映
型別4-
數值**
回歸樹、模型樹
@決策樹的不同版本
版本1-id3
決策樹用熵
(entropy)
作為純度度量
版本2-c4.5
決策樹用資訊增益
(information gain)
作為純度度量,在處理連續資料離散化和缺失資料上做了改進。
其實資訊增益本質上和熵是一樣的概念,因為資訊增益=熵
-熵』。
版本3-cart
用基尼係數
(gini index)
作為純度度量
版本4-chaid
決策樹使用卡方檢驗進行評估
版本5-
回歸樹多個變數
->
單個變數
@決策樹問題及對策
問題過度擬合
(over fitting) 對策
前剪枝(pre prune)
:先設定好規則,一旦資料符合這個規則就被剪枝
後剪枝(post prune):
子樹替換,子樹提公升
奧卡姆剃刀
(occam』s razor):@
決策樹的優勢
當一條記錄有若干不同的方式劃分為目標類的一部分時,適合用單條線來發現類別之間邊界的統計學方法是無力的。
而決策樹能夠成功地達到這一目標。
@決策樹節點的純度度量
gini
基尼entropy
熵資訊增益比率
卡方檢驗
@離散化資料的方法
等寬分箱
等頻分箱
基於熵的離散化
高斯近似
k-分位數方法
chimerge
@人工神經網路
演算法模型:
輸入-啟用函式-輸出
關於輸入
輸入->
全部對映為
[-1,1]
關於啟用函式
啟用函式
= 組合函式
+ 轉換函式
組合函式
組合函式把所有的輸入按一定權重組合,再加上偏離,構成單一值
轉換函式
把組合函式的輸出作為轉換函式自己的輸入,計算輸出值。
轉換函式
1- sigmond
邏輯函式
logistic(x) =1/(1+ e-x)
轉換函式
2-線性
tanh(x)=( ex - e-x)/( ex + e-x)
轉換函式
3-雙曲正切
訓練神經網路的過程就是設定連線所有單元之間的邊得最佳權重。
可以使用以下演算法進行調節
爬山法模擬退火
(simulated annealing)
共軛梯度
(conjugate gradient) @
遺傳演算法
一般,當問題的可以表示為有限資源的爭奪時,可以使用遺傳演算法。
@度量的分類
分類變數:可說
x≠y,不可說
x或x>y
排序變數:可說
x不可說
y-x與
z-y誰大
區間變數:巴黎
5℃,紐約
10℃,可說紐約比巴黎高
5℃,不可說紐約是巴黎的兩倍熱。
因為溫度中的
0℃是沒有意義的。即區間變數只能做加減,不能做除法。
真實變數
:從乙個有意義的
0開始,比如小明身高
1公尺,小紅身高
1.5公尺。真是變數既可以做減法,又可以做除法。
資料探勘技術理論 簡談
資料探勘的技術與方法 資料探勘模型主要分為兩大類 描述性 無監督學習 性 有監督學習,分類模型 描述性 分析具有多個屬性的資料集,找出潛在的模式,沒有因變數。場景 觀察個體之間的相似程度,例如根據年齡,性別,收入等因素對客戶進行細分,根據客戶對多個產品的購買,發現產品之間的相關性。主要演算法有 聚類...
matlab資料探勘學習篇
常用函式 xlsread 檔名 讀取excel檔案 num,txt,raw xlsread num讀取數字變數,txt讀取文字變數 num,txt,raw xlsread myexample.xlsx num 1 2 3 4 5 nan 7 8 9 txt first second third x ...
資料探勘入門學習心得
datawhale 零基礎入門資料探勘 task2 學習心得 很感謝這期學習的舉辦方,作為乙個小白希望可以通這期的學習,可以對這個流程有乙個初步的認識,為以後學習做鋪墊。2.1 eda目標 eda的價值主要在於熟悉資料集,了解資料集,對資料集進行驗證來確定所獲得資料集可以用於接下來的機器學習或者深度...