資料探勘之 一些概念 原理區分

2021-09-13 19:30:10 字數 837 閱讀 2396

1. 分類和回歸的區別

在本質上是一樣的,都是針對乙個輸入,做出乙個輸出**,區別在於輸出變數的型別。

定性輸出稱為分類,或者說是離散變數**,給定乙個新的模式,推斷它所對應的類別,如a,b類;

定量輸出稱為回歸,或者說是連續變數**,給定乙個新的模式,推斷它所輸出的值(實數)。

煮個栗子:

**明天的氣溫是多少度,可能是有乙個y = ax+b 的函式,這是乙個回歸任務;

**明天是陰、晴、雨、雪,這就是乙個分類任務。

特性分類

回歸輸出型別

離散資料

連續資料

目的尋找決策邊界

找到最優擬合

評價方法

精度(accuracy)、混淆矩陣

sse(sum of square errors)或擬合優度

分類模型可將回歸模型的輸出離散化,回歸模型也可以將分類模型的輸出連續化:

再煮幾個栗子:

logistic regression 和 linear regression:

linear regression:輸出乙個標量 wx+b ,這是乙個連續值,可以用來處理回歸問題;

logistic regression:把上面的wx+b 通過 sigmoid 函式對映到(0,1)上,並劃分乙個閾值,大於閾值的分為一類,小於等於的分為另一類,就可以用來處理二分類問題

更進一步:對於n分類問題,則是先得到 n 組 w 不同的 wx+b,然後歸一化,(如用softmax函式),最後變成 n 個類上的概率,就可以處理多分類問題

分類與回歸的區別

前出塞資料探勘的一些必須了解的概念

前出塞 現在使用了資料探勘,下面跟大家一起討論下資料探勘的概念。從龐雜的資料背後挖掘 分析使用者的行為習慣和喜好,找出更符合使用者 口味 的產品和服務,並結合使用者需求有針對性地調整和優化自身,就是大資料的價值。對於大資料在商業上的用途,這句話說得很清楚。前半句是重點,了解使用者的行為習慣和愛好,這...

k均值例子 資料探勘 資料探勘比賽的一些經驗心得

資料去噪 無論是資料探勘的比賽也好,還是日常生活中的各種專案也好,我們拿到手的資料集含有雜訊資料是很正常的。雜訊會降低我們的資料質量,從而影響我們模型的效果。因此,對雜訊的處理是必須的,這一點是眾所周知的事情。但是,在去噪的過程中我們也要注意以下問題。在我們這些天做的乙個比賽上,乙個隊友,拿著沒有好...

澄清一些概念

參考 以前一直分不清 authentication 和 authorization,其實很簡單,舉個例子來說 你要登機,你需要出示你的 passport 和 ticket,passport 是為了證明你張三確實是你張三,這就是 authentication 而機票是為了證明你張三確實買了票可以上飛機...