資料探勘之基礎概念

2021-07-05 15:24:47 字數 1018 閱讀 4409

**任務:根據其他屬性的值,**特定屬性的值。

通常資料探勘的任務

描述任務:匯出概括資料中潛聯絡的模式

四種主要的資料探勘任務:**建模、關聯分析、聚類分析、異常檢測

**建模:     分類:用於**離散的目標變數

回歸:用於**連續的目標變數

關聯分析:用於發現描述資料中強關聯特徵的模式。

異常檢測:識別器特徵顯著不同於其他資料的觀測值。這樣的觀測值稱為異常點,或離群點。

維度:資料集的維度是資料集中的物件具有的屬性數目。低維度資料往往與中、高維度資料有質的不同。資料預處理的乙個重要動機就是減少維度,成為維歸約。

稀疏性:有些資料集,如果具有非對稱特徵的資料集,乙個物件的大部分屬性上的值都為0;在許多情況下,非零項還不到1%。(非對稱屬性:eg:對於某個學生,選修某門課程為1,否則取值0.由於學生只選擇了所有課程中的一小部分。所以資料集的大部分值都是0)

解析度:常常可以在不同的解析度下得到資料,並且在不同的解析度下資料的性質也不同。(以幾公尺或者幾十公尺解析度觀測地球表面)

離群點:在某種意義上具有不同於資料集中其他大部分資料物件的特徵的資料物件,或是相對於該屬性的典型值來說不尋常的屬性值。

資料預處理:

聚集: 將兩個或多個物件合併成單個物件。

無放回抽樣

簡單隨機抽樣

有放回抽樣

抽樣分層抽樣:從預先制定的組開始抽樣

維歸約嵌入

特徵子集選擇     過濾

包裝特徵加權:特徵加權是另一種保留或刪除特徵的辦法。特徵越重要,所賦予的權值越大

相似性和相異性的度量

用鄰近度表示相似性或相異性。

相似度定義兩個物件相似程度的數值度量

相異度定義兩個物件差異程度的數值度量

分類:分類任務就是通過學習得到乙個目標函式f,把每個屬性集x對映到乙個預先定義的類標號y

決策樹歸納

根結點:它沒有入邊,但有零條或多條出邊

內部結點:恰有一條入邊和兩條或多條出邊

葉結點或終結點:恰有一條入邊,但沒有出邊

資料探勘之基礎概念二

模型的過擬合 分類模型的誤差大致分為兩張 訓練誤差 再代入誤差或表現誤差 泛化誤差 模型擬合不足 決策樹很小,訓練和檢驗誤差都很大 模型過分擬合 樹的模型變得太大,即使訓練誤差還在繼續降低,但是檢驗誤差開始增大,這種現象叫做過分擬合 奧卡姆剃刀 給定兩個具有相同泛化誤差的模型,較簡單的模型比較複雜的...

資料探勘1基礎概念

機器學習 假設用p來估計計算機程在某個任務t上的效能,若乙個程式通過利用經驗e在t中獲得了效能改善,我們說關於t和p,該程式對e進行了學習。適用機器學習的地方 1 表現或目標能夠增進 2 不知道把規則寫下 3 一切學習從資料開始 人工智慧的核心主要使用歸納 綜合而不是演繹。機器學習的三要素 資料 模...

資料探勘概念

資料探勘是從海量的資料中抽取感興趣的 有價值的 隱含的 以前沒有用但是潛在有用資訊的 模式和知識的過程。資料探勘是從存放在資料庫 資料倉儲中或其它資訊庫中的大量資料中挖掘有趣知識的過程。研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的效能。分類 ...