資料探勘 資料歸約之大型資料集的維度

2021-09-23 11:00:11 字數 844 閱讀 5518

前言

雖然大型資料集可能得到更佳的挖掘結果,但未必能獲得比小型資料集更好的挖掘結果

對於多維資料,乙個主要的問題是在所有維度中搜尋所有挖掘方案之前,是否可以確定某方法在已歸約資料集的挖掘和發現中國發揮得淋漓盡致。

一、大型資料集的維度

資料的描述以及特徵的挑選,歸約或轉換可能是決定挖掘方案質量的最終更要問題。

預處理集的3個主要維度通常表示為平面檔案即列,行和特徵的值

因此資料歸約的3個基本操作就是刪除列,刪除行和減少列中值的數量。這些操作的目的是試圖刪掉不必要的資料來保留原始資料的特徵

在準備資料探勘時候,要執行標準的資料歸約操作,需要了解通過這些活動可以得到什麼或者失去什麼? 則需要全面比較需要分析下面的引數:

1) 計算時間—— 資料歸約後的比較簡單資料,是否可以減少資料探勘所消耗的時間

2) **/描述精度

3) 資料探勘模型的描述—— 簡單的模型描述通常來自資料歸約,這往往意味著模型能得到更好的理解。所匯出的模型和其他結果的這種簡易性依賴於對模型的描述。

理想情況下,使用維度歸約既能減少時間又能提高精度,簡化模型的描述。

資料歸約推薦的特性描述如下:

可測性—— 應用已歸約的資料集合可精確的確定近似結果的質量

可識別性——在應用資料探勘程式之前,在資料歸約演算法執行期間,很容易確定近似結果的質量

單一性——演算法往往是迭代的,計算結果的質量是時間和輸入資料質量的乙個非遞減的函式

一致性——計算結果的質量與計算時間及輸入資料質量有關

收益遞減——方案在計算的早期能獲得很大的改進,但是隨著時間遞減

可中斷性——演算法可以隨時停止,並給出答案

優先權——演算法可以暫停並以最小的開銷重新開始

機器學習之大資料集

前言 簡介大資料時代已經來臨,它將在眾多領域掀起變革的巨浪。機器學習對於大資料集的處理也變得越來越重要。大資料 集務必會帶來恐怖的計算量,不僅耗費大量資源,而且給資料處理的實時性帶來巨大的挑戰。想要解決這個難題,就需要採取以下措施 選擇更加適合大資料集的演算法 更加好的硬體,採用平行計算等。本文內容...

資料預處理 資料歸約03

概述 資料歸約 data reduction 技術可以用來得到資料集的歸約表示,它小得多,但是保持原始資料的完整性。也就是說,在歸約後的資料集上挖掘更有效果,仍然產生相同 或幾乎形同 的分析結果。注意 用於資料歸約的時間不應當超過或 抵消 在歸約後的資料探勘上挖掘節省的時間。資料探勘策略包括維歸約 ...

資料探勘 資料

對關注的屬性,樣本與原始資料集有相同的性質,則用抽樣計算的結果與全集是一樣。1.1 抽樣的方法 1 簡單隨機抽樣 random sampling 放回 不放回 2 分層抽樣 stratified sampling 如果資料集不同型別的資料數量差異過大,則隨機抽樣會丟失數量少的樣本。可針對不同資料組,...