資料探勘概念與技術(韓家偉)閱讀筆記1

2022-08-02 01:06:14 字數 1696 閱讀 9713

1.什麼是資料探勘

指從大量資料中提取或「挖掘」知識。

2.資料探勘與知識發現

知識發現的迭代序列包括:資料清理,資料整合,資料選擇,資料變換,資料探勘,模式評估,知識表示。在實際使用過程中,資料探勘可代替知識發現一次使用。

3.資料儲存庫

(1)關聯式資料庫。表的匯集,每個表都有唯一的名字。每個表包含一組屬性,存放大量的元祖,每個元祖代表乙個物件,被唯一的關鍵字識別,並被一組屬性描述。

(2)資料倉儲。乙個從多個資料來源收集的資訊儲存庫,存放在乙個一致的模式下,並且通常滯留在乙個站點。資料倉儲通過資料清理,資料變換,資料整合,資料裝入和定期資料重新整理過程來構造。

資料倉儲用多維資料庫結構建模,每個維對應模式中的乙個或一組屬性,每個單元儲存某種聚集度量值。

(3)事務資料庫。由乙個檔案組成每個記錄代表乙個事務,有唯一的事務標識號。

事務id

商品id的列表

001i1,i2,i3

由於商品id的列表包含巢狀關係,所以大部分的關聯式資料庫不支援,所以事務資料庫通常儲存在乙個類似於上表的**式檔案中。不過也可以對該錶進行展開分成多個元祖裝入關聯式資料庫。

(4)高階資料庫系統

a.物件-關聯式資料庫。把每乙個實體看做乙個物件,設計乙個物件的資料和**封裝在乙個單元中。

b.時間,序列,時間序列資料庫。

c.空間,時間空間資料庫。

d.異構資料庫和遺產資料庫。

4.資料倉儲與資料集市

資料倉儲收集了跨部門的整個組織的主題資訊,是企業範圍的;資料集市是資料倉儲的乙個部分,是部門範圍的。

5.聯機分析處理(olap)

olap操作包括下鑽和上捲

下鑽:對資料倉儲某屬性進行拆分(拆分季度得到月)得到新資料倉儲該維上的新屬性。

上捲,按某種規則對原資料倉儲上的某種屬性進行聚合,(例按國家對城市分類形成國家的組合)。

6.概念/類描述:特徵化和區分

區分:目標類資料的一般特性與乙個或多個對比類一般特性比較。

7.頻繁模式,關聯和相關

頻繁模式:項集,子串行,子結構

關聯分析:x=》y。支援度:在所有的事務中該事務發生的可能性。置信度:在x發生的條件下,y發生的概率。

8.分類和**

分類:找出描述和區分資料類或概念的模型,以便能夠使用模型**類標號未知的物件類(找出模型)。

模型的表現形式:分類規則,決策樹,資料公式和神經網路。

**:建立連續值函式模型。

分類主要就是找出模型,對資料按照模型進行分類。分類:對類標號未知的資料找到類標號。

**主要是建立函式。根據現有的資料進行分析得到函式,從而能夠在不同條件下,**可能得到的結果。

9.聚類分析

根據最大化類內部的相似性,最小化類之間的相似性規則進行分組。

10.離群點分析

找出與模型不一致的資料。

11.演變分析

描述行為隨時間變化的物件的規律和趨勢,並對其進行建模。

12.資料探勘的主要問題

效能問題:

a>資料探勘演算法的有效性和可伸縮性:資料探勘演算法在大型資料庫中的執行時間必須是可接受的和可預計的。

b>並行,分布和增量挖掘演算法。計算複雜性的降低。

資料庫型別的多樣性:

a>關係和複雜資料型別處理。資料型別的多樣性和資料探勘目標不同。

b>從異構資料庫和全球資訊系統挖掘資訊。從不同資料語義的結構化的,半結構化的和非結構化的不同資料來源發現知識。

資料探勘概念與技術

在現實社會中的資料往往存在雜訊資料 缺失值和不一致資料的問題。為了提高資料探勘工作的效率和準確性,需要使用資料清理 資料整合 資料歸約和資料變換等方法對資料進行預處理操作。資料質量的三個要素是 準確性 完整性和一致性。資料清理試圖填充缺失值 光滑雜訊並識別離群點 糾正資料中的不一致。忽略元組。該方法...

資料探勘概念與技術 文字挖掘

1 文字檢索的基本度量 color red 準確率和召回率 color url 2 文字檢索方法 color red 向量空間模型 color url 3 文字索引技術 color red 1 倒排索引 color 一種索引結構,維持兩個雜湊索引表document table 文件表 和term t...

資料探勘概念與技術筆記

1.什麼是資料探勘?資料探勘是從大量資料中提取或 挖掘 知識,很多人也把資料探勘視作 資料庫中的知識發現 kdd 資料探勘的步驟包括 2.什麼是資料倉儲?資料倉儲是乙個從多個資料來源收集的資訊儲存,存放在乙個一致的模式下,並通常駐留在單個站點。通俗講,資料倉儲是通過資料清理 資料變換 資料整合 資料...