機器學習與資料探勘參考文獻
一、二項邏輯斯諦回歸模型
二項邏輯斯諦回歸模型是如下的條件概率分布:
這裡,x∈rn是輸入,y∈是輸出,w∈rn和b∈r是引數,w稱為權值向量,b稱為偏置,w·x為w和x的內積。有時為了方便,將權值向量和輸入向量加以擴充,仍記作w,x,即w=(w(1),w(2),...,w(n),b)t,x=(x(1),x(2),...,x(n),1)t。這時,邏輯斯諦回歸模型如下:
乙個事件的機率是指該事件發生的概率與該事件不發生的概率的比值。如果事件發生的概率是p,那麼該事件的機率是p/(1-p),該事件的對數機率或logit函式是
對邏輯斯諦回歸而言,由上式得
這就是說,在邏輯斯諦回歸模型中,輸出y=1的對數機率是輸入x的線性模型。或者說,輸出y=1的對數機率是輸入x的線性函式表示的模型,即邏輯斯諦回歸模型。線性函式的值越接近正無窮,p(y=1|x)的概率值就越接近1;線性函式的值越接近負無窮,概率值就越接近0。
二、模型引數估計
邏輯斯諦回歸模型學習時,對於給定的訓練資料集,可以應用極大似然估計法估計模型引數,從而得到邏輯斯諦回歸模型。
設p(y=1|x)=π(x),p(y=0|x)=1-π(x),似然函式為
對數似然函式為
對l(w)求極大值,得到w的估計值。
這樣,問題就變成了以對數似然函式為目標函式的最優化問題。邏輯斯諦回歸學習中通常採用的方法是梯度下降法及擬牛頓法。
三、多項邏輯斯諦回歸
假設離散型隨機變數y的取值集合是,那麼多項邏輯斯諦回歸模型是
這裡,x∈rn+1,wk∈rn+1。
機器學習與資料探勘
機器學習的科學成分更重一些 資料探勘的技術成分更重一些 資料分析的角度 資料探勘並沒有機器學習探索人的學習機制這一科學發現任務 資料探勘中的資料分析是針對海量資料進行的 是一門多領域交叉學科,涉及概率論 統計學 畢竟輪 凸分析 演算法複雜度理論等多門學科,專門研究計算機是怎樣模擬或實現人類的學習行為...
資料探勘與機器學習入門
導論 機器學習演算法最適用的場景就是 不便用規則處理的場合 資料探勘 data mining 是有組織有目的地收集資料,通過分析資料使之成為資訊,從而在大量資料中尋找潛在規律以形成規則或知識的技術。機器學習 machine learning,ml 是一門多領域交叉學科,涉及概率論 統計學 逼近論 凸...
資料探勘與機器學習釋義
人工智慧是目前炙手可熱的領域,所有的網際網路公司以及各路大迦們紛紛表態人工智慧將是下乙個時代的革命性技術。資料探勘 data mining 和機器學習 machine learning 作為人工智慧研究與應用的分支領域,也越來越多的被提到。在大多數非計算機專業人士以及部分計算機專業背景人士眼中,機器...