資料探勘 資料的準備

2021-09-02 10:50:35 字數 835 閱讀 1773

1、資料的收集

2、資料抽樣 :注意其代表性和隨機性

代表性指的是樣本與總體的接近程度;隨機性反映樣本被抽中純屬偶然

例如:在對總體質量狀況一無所知的情況下,採用簡單隨機抽樣最為合理;在對總體質量有一定的了解情況下,採用分層隨機或系統隨機抽樣可提高其代表性;而對於簡單隨機抽樣有困難的情況下,可採用隨機性和代表性較差的分段隨機或整群隨機抽樣

3、抽樣方法

單價段抽樣方法

方法介紹

特點簡單隨機抽樣

將調查總體全部編號,再用抽籤法或者隨機數表法抽取部分觀察組成樣本

優點:操作簡單

缺點:總體較大時,無法編號

系統抽樣(機械抽樣、等距抽樣)

先將總體的觀察按某一順序號分成n個部分,再從每乙個部分個抽取一定數量的觀察組成樣本

優點:易於理解、簡單易行

缺點:總體有週期或增減趨勢時,易產生偏性

整群抽樣

總體分群,在隨機抽取幾個群組成樣本,群內全部抽樣

優點:便於組織、節省經費

缺點:抽樣誤差大於單純隨機抽樣

分層抽樣

按對樣本影響較大的某種特徵,將總體分成若干個類別,再從每一層內隨機抽取一定數量的觀察,合起來組成樣本

優點:樣本代表性好、抽樣誤差小

在實際應用中,常根據實際情況將整個抽樣過程分為若干個階段進行,成為多階段抽樣

流程圖如下:

資料探勘筆記 1 概念 資料準備

一.概念 資料探勘 運用基於計算機的方法,從資料中獲得有用之時的整個過程。兩個基本目標 和描述。資料探勘的基本任務 1 分類 2 回歸 3 聚類 4 總結概括 5 關聯建模 6 變化和偏差檢測 資料探勘的過程 陳述問題,闡明假設 收集資料 預處理資料 模型評估 挖掘資料 解釋模型,得出結論 資料倉儲...

資料探勘之資料準備 原始資料的轉換

接下來介紹的幾個資料轉換常見型別與問題無關,並可能改善資料探勘的結果。在特定應用中選擇和使用技術,取決於資料的型別,資料量和資料探勘任務的一般特徵。1.標準化 一些資料探勘方法,一般是那些基於n維空間中的點間距離計算的方法,可能需要對資料進行標準化,以獲得最佳結果。測量值可按比例對應到乙個特定的範圍...

資料探勘之資料準備 原始資料的描述

資料樣本是資料探勘過程的基本組成部分,每個樣本都用幾個特徵來描述,每個特徵都有不同型別的值。首先介紹兩種常見的基本型別 數值型 和 分型別 數值型值包括實型變數和整型變數如年齡,速度或長度。數值型特徵有兩個重要的屬性 其值有順序關係和距離關係。與其形成對照的是,分型別變數沒有上述兩種關係,分型別變數...