資料探勘筆記(1)

2021-06-28 23:49:16 字數 1683 閱讀 5129

1)資料探勘的一種定義

是一項通過探測大量資料以發現有意義的模式和規則的業務流程。

資料探勘是一種業務流程,它以其它業務流程產生的大量資料為輸入,一般經過收集,清洗,整理,識別、分析和度量等加工,得到某種有意義的模式或規則作為輸出。而這種輸出反過來可以為其它業務流程提供度量,判斷,**等作用。

資料探勘的基礎是大量的資料,不同的挖掘方法和目的對於資料量的要求會有所不同,但一般而言,都是資料越多越好。對於資料探勘而言,所有資料都是有用的,但對於某種具體的挖掘任務,就需要識別有效資料和無效資料,這就是資料清理的基本目的。

資料探勘的過程並不是單線的,很多時候都需要不停地迭代。

發現有意義的模式和規則是資料探勘的根本目的,這裡的模式和規則可以是一種關聯(比如身高和飲食,銷量與季節等),趨勢(比如人口增長趨勢,銷量趨勢)。一般來講,根據資料總可以找到一種模式或者規則(對於有限的樣本資料總可以找到一種擬合函式),因此必須尋找有意義的模式或規則,這裡的有意義是指可以給我們的其它業務過程提供「有用「的幫助。

在資料探勘過程中,每個環節其實都帶有非常大的主觀性,由於資料量大,資料維度多,資料所包含的資訊取決於人的視角,要窮盡所有的可能是不現實的,因此取捨在資料探勘過程中非常重要。正因為資料探勘的特殊性,很多時候我們都希望能得到某種通用的模式。這當然是無可厚非的事情。但由於資料探勘是基於歷史資料,樣本資料總是有限的,因此如果涉及到對未來的**,那麼在資料探勘過程中就應始終保持對通用模式的警惕(放之四海而皆準的都應該警惕),同時也需要防止過渡擬合。

2)資料探勘的一般過程

a)識別業務機會

資料探勘的重點的是結果(得到有價值的資訊),而不是利用先進的技術。識別業務機會是資料探勘的任務定義過程。

b)將資料轉換為資訊;

將資料轉換為資訊就是資料探勘的挖掘過程。資料的好壞對資訊的獲取有比較直接的影響,因為在挖掘過程中,需要花費大量的時間和精力來進行資料的清理和整理。為了減少這種成本,為資料探勘而提供的資料應該有良好的資料格式(盡量結構化和標準化),盡可能多的維度(一般是越詳細越好)。

這從另外乙個角度,也給業務或者產品的設計者,資料結構的設計者提出了更高的要求。

c)根據資訊採取行動;

這是資料探勘的根本目的。資料探勘得到的資訊應該得到應用。只有用了才能從實際中驗證資料探勘工作的好壞,挖掘策略是否有效。

d)度量結果。

對資料探勘得到的資訊通過實際應用進行檢測,從而可以評價和改進挖掘過程。而且,通過應用產生的資料可以加入到新的挖掘過程中,對挖掘形成良性的促進。

3)需要注意的問題

學習的東西不真實

a) 模式不代表任何基本規則

資料本身是沒有好壞的,資料是中性的。但人們從資料獲得的資訊往往帶有認知的主觀性。比如我們認為月亮上有月兔,僅僅是因為有些像,但實際沒有。

資料不會說謊,理解(挖掘)會有偏差;說謊的人會玩弄資料;

b) 模型集可能不反映相關的總體

樣本資料太少,樣本資料不能很好的反映整體的情況下就會產生這種問題。比如1,1,2,3,5,8.看到這些資料,很容易認為是斐波納契數列,如果這是商店的每天賣出的商品數,能用斐波納契數列做商品的銷售模型?顯然不行的。

c)資料的詳細程度有誤

還是上面的例子,資料量太小,資料量太少,資料的詳細程度太低,往往得不到所要的結果,還會產生誤導。

學習的東西無用

包括兩個方面,一是得出的東西眾所周知,二是不能用,這個不能用可能是法律的,或者條件所限。 



資料探勘筆記 1

維歸約規範化 選擇資料子集 視覺化模式表達 高維性 物件擁有數量不少的屬性 資料的所有權與分布 分布式資料處理 非傳統的分析 資料探勘要求自動產生和評估假設,並且資料探勘資料集多是時機性樣本,而非隨機性樣本 關聯分析 association analysis 用來發現描述資料中強相關的模式 聚類分析...

資料探勘筆記1

資料可以與類或概念相關聯。例如,在allelectronics 商店,銷售的商品類包括計算機和印表機,顧客概念包括bigspenders 和budgetspenders。用彙總的 簡潔的 精確的方式描述每個類和概念可能是有用的。這種類或概念的描述稱為類 概念描述。這種描述可以通過下述方法得到 1 資...

資料探勘筆記1

資料可以與類或概念相關聯。例如,在allelectronics 商店,銷售的商品類包括計算機和印表機,顧客概念包括bigspenders 和budgetspenders。用彙總的 簡潔的 精確的方式描述每個類和概念可能是有用的。這種類或概念的描述稱為類 概念描述。這種描述可以通過下述方法得到 1 資...