資料探勘與python實踐 (一)引言和認識資料

2021-10-07 05:19:33 字數 3465 閱讀 8661

目錄

資料探勘的產生、定義、流程

資料探勘原因

資料探勘定義

資料探勘流程

資料探勘的方法

資料探勘的應用

資料物件與屬性型別

資料的基本統計描述

資料的中心趨勢度量

描述性統計的離散趨勢度量

自動資料收集工具和成熟的資料庫技術使得大量的資料被收集,儲存在資料庫、資料倉儲或其他資訊庫中以待分析;我們擁有豐富的資料,但卻缺乏有用的資訊。

資料探勘:在大量的資料中挖掘感興趣的知識(規則,規律,模式,約束)

定義:資料探勘就是從資料中發現知識,具體而言,就是從大量的資料中挖掘那些令人感興趣的、有用的、隱含的、先前未知的和可能有用的模式或知識。

(1)了解應用領域——了解相關的知識和應用的目標;

(2)建立目標資料集;

(3)選擇資料,資料清理和預處理(這個可能要佔全過程60%的工作量) ,資料壓縮和變換;

(4)選擇資料探勘的技術、功能和合適的演算法,進行資料探勘;

(5)尋找感興趣的模式

(6)模式評估

(7)知識表示

(8)運用發現的知識

資料定義:資料是對事物描述的符號。在電腦科學中,資料是數字、文字、影象、聲音等可以輸入到計算機被識別的符號;企業運營離不開資料;使用者生成資料。

資料探勘處理的資料型別:結構化資料和非結構化資料

1. 結構化資料:通常二維**的形式儲存在關聯式資料庫中;

常用的分析方法包括分類、聚類、關聯分析、數值**、序列分析、社會網路分析等。

分類:通過對具有類別的物件的資料集進行學習,概括其主要特徵,構建分類模型,根據該模型**物件的類別的一種資料探勘和機器學習技術。

聚類:依據物以類聚的原理,將沒有類別的物件根據物件的特徵自動聚集成不同簇的過程,使得屬於同乙個簇的物件之間非常相似,屬於不同簇的物件之間不相似。典型應用:客戶群分類。

注意:分類和聚類都屬於對資料進行歸類,不同點在於:分類針對有標籤的資料分析,聚類針對沒有標籤的資料。

關聯分析:發現資料之間的關聯規則,經常用在購物籃分析中。

數值**:用於**連續變數的取值,常用的**方法是回歸分析。

異常挖掘:也稱為孤立點分析,挖掘一些與資料一般特點不一致的孤立點。例如,信用卡客戶欺詐檢測。

序列分析:對序列資料庫進行分析,從中挖掘出有意義模式的技術。

社會網路分析:對社會網路的結構和屬性進行分析,以發現其中的區域性或全域性特點,發現其中有影響力的個人或組織,發現網路的動態變化規律等。

(1)市場分析和管理:目標市場, 客戶關係管理 (crm), 市場占有量分析, 交叉銷售, 市場分割

(2)風險分析和管理:風險**, 客戶保持, 保險業的改良, 質量控制, 競爭分析

(3)欺騙檢測和異常模式的監測 (孤立點)

(1)文字挖掘 (新聞組,電子郵件, 文件) 和web挖掘

(2)流資料探勘

(3)dna 和生物資料分析

資料物件:資料集由資料物件構成;乙個資料物件代表乙個實體,資料物件又稱為樣本、事例、例項, 資料點、物件、元組等,它由屬性來描述。

屬性:也稱為維度、特徵、 變數,乙個資料字段表示乙個資料物件的某個特徵。

「與名稱相關」,標稱屬性又被看做是分類的,它的數**算沒有意義。注意學號也是一種標稱屬性。

一種特殊的標稱屬性或布林屬性,只有兩種類別或狀態,比如0或1。

對稱二元屬性:兩種值同樣重要,如性別;

非對稱二元屬性:兩種值非同等重要,如醫療檢查中的陰性和陽性,通常測試為陽性更為稀有而認為更重要。

值有乙個有意義的順序(排序) ,但連續值之間的大小未知。比如:衣服大小號size =

區間標度數值屬性:相等的單位尺度,值可以排序,但沒有真正的零點(比值沒有意義),比如年代、溫度。

比率標度數值屬性:有真正零點的數值屬性,如重量、身高、貨幣量等。

常用度量指標有均值、中位數、眾數、中列數,其中最常用、最有效的數值度量為均值。

屬性x的每個觀測值的權重不一樣時計算加權平均值

去掉高低極端值後的平均值

具有乙個、兩個、三個眾數的資料集合分別稱為單峰、雙峰和三峰

最大和最小值的平均值,用來評估數值資料的中心趨勢

也叫全距,資料中最大與最小間的差距,是衡量資料變異程度最簡單的描述,全距對最大與最小資料的值的敏感性很強。

也稱分位點,將乙個隨機變數的概率分布範圍分為幾個等份的數值點,常用的有中位數(二分位數)、四分位數、百分位數等;

第p個百分位數:至少有p%的資料項小於或等於這個值,且至少有(100 - p)%的資料項大於或等於這個值。計算方法為:先遞增排序,位置i = (p/100)n,如果i不是整數則向上取整,否則計算第i項與第i+1項的平均值。

四分位數:25%分位數q1、50%分位數q2、75%分位數q3

四分位數極差(iqr):也稱四分位點內距,第1個和第3個四分位數之間的距離,該距離是散布的一種簡單度量,能夠克服極端值的影響。

分布的五數概括:包括最小值, q1, 中位數, q3, 最大值

可疑的離群點:數值落在第3個四分位數之上或第乙個四分位數之下至少1.5×iqr值。

箱線圖(盒圖):用來體現五數概括,特徵:

盒子兩端是第1/3四分位數, 即盒子高度為四分位數極差iqr;

盒子中間的粗線表示中位數;

由盒子向下向上伸出的垂直部分稱為觸鬚,表示資料的散布範圍,通常最遠點是1.5iqr,離群點需單獨標出。

如下圖所示,部門1商品單價的中位數為80美元,q1為60美元,q3為100美元,1.5iqr為60,需要注意的是,該部門的兩個邊緣值175和202都超過了第三個四分位數的1.5iqr

方差是各資料值與平均值之間的差異,如果資料集為樣本,樣本方差為

標準差的性質:當選擇均值作為中心度量時,可以選擇標準差度量資料的發散程度;僅當不存在發散時,也就是當所有的觀測值都具有相同值時,標準差為0,否則標準差大於0。

《Python資料探勘 概念 方法與實踐》一導讀

preface 前言 過去十年,資料儲存變得更便宜,硬體變得更快,演算法上也有了引人注目的進步,這一切為資料科學的快速興起鋪平了道路,並推動其發展成為計算領域最重要的機遇。雖然 資料科學 一詞可以包含從資料清理 資料儲存到用圖形圖表視覺化資料的所有環節,但該領域最重要的收穫是發明了智慧型 精密的資料...

資料探勘(一) 引論

資訊時代 資料時代 資料探勘 kdd 把大型資料集轉換成知識 1 資料倉儲 這是一種多個異構資料來源在單個站點以統一的模式組織的儲存,以支援管理決策,一種資料儲存結構,用於長期儲存資料的倉庫 2 資料倉儲技術 包括資料清理 資料整合和聯機分析處理 olap 3 olap聯機分析處理 一種分析技術,具...

資料探勘(一)引論

啤酒與尿布 qq推薦人 購買 購買披薩 古人資料分析,哪些諺語可以說明,古人就根據觀察到的資訊進行資訊的分析和歸納?古人根據千百年的生活經驗分析總結得到天氣情況與自然不同物體的表現形式關聯性。資料探勘 滴滴出行資料 什麼是資料探勘?資料探勘 資料庫中知識發現 資料探勘 data mining 是 從...