1)資料探勘的一種定義
是一項通過探測大量資料以發現有意義的模式和規則的業務流程。
資料探勘是一種業務流程,它以其它業務流程產生的大量資料為輸入,一般經過收集,清洗,整理,識別、分析和度量等加工,得到某種有意義的模式或規則作為輸出。而這種輸出反過來可以為其它業務流程提供度量,判斷,**等作用。
資料探勘的基礎是大量的資料,不同的挖掘方法和目的對於資料量的要求會有所不同,但一般而言,都是資料越多越好。對於資料探勘而言,所有資料都是有用的,但對於某種具體的挖掘任務,就需要識別有效資料和無效資料,這就是資料清理的基本目的。
資料探勘的過程並不是單線的,很多時候都需要不停地迭代。
發現有意義的模式和規則是資料探勘的根本目的,這裡的模式和規則可以是一種關聯(比如身高和飲食,銷量與季節等),趨勢(比如人口增長趨勢,銷量趨勢)。一般來講,根據資料總可以找到一種模式或者規則(對於有限的樣本資料總可以找到一種擬合函式),因此必須尋找有意義的模式或規則,這裡的有意義是指可以給我們的其它業務過程提供「有用「的幫助。
在資料探勘過程中,每個環節其實都帶有非常大的主觀性,由於資料量大,資料維度多,資料所包含的資訊取決於人的視角,要窮盡所有的可能是不現實的,因此取捨在資料探勘過程中非常重要。正因為資料探勘的特殊性,很多時候我們都希望能得到某種通用的模式。這當然是無可厚非的事情。但由於資料探勘是基於歷史資料,樣本資料總是有限的,因此如果涉及到對未來的**,那麼在資料探勘過程中就應始終保持對通用模式的警惕(放之四海而皆準的都應該警惕),同時也需要防止過渡擬合。
2)資料探勘的一般過程
a)識別業務機會
資料探勘的重點的是結果(得到有價值的資訊),而不是利用先進的技術。識別業務機會是資料探勘的任務定義過程。
b)將資料轉換為資訊;
將資料轉換為資訊就是資料探勘的挖掘過程。資料的好壞對資訊的獲取有比較直接的影響,因為在挖掘過程中,需要花費大量的時間和精力來進行資料的清理和整理。為了減少這種成本,為資料探勘而提供的資料應該有良好的資料格式(盡量結構化和標準化),盡可能多的維度(一般是越詳細越好)。
這從另外乙個角度,也給業務或者產品的設計者,資料結構的設計者提出了更高的要求。
c)根據資訊採取行動;
這是資料探勘的根本目的。資料探勘得到的資訊應該得到應用。只有用了才能從實際中驗證資料探勘工作的好壞,挖掘策略是否有效。
d)度量結果。
對資料探勘得到的資訊通過實際應用進行檢測,從而可以評價和改進挖掘過程。而且,通過應用產生的資料可以加入到新的挖掘過程中,對挖掘形成良性的促進。
3)需要注意的問題
學習的東西不真實
a) 模式不代表任何基本規則
資料本身是沒有好壞的,資料是中性的。但人們從資料獲得的資訊往往帶有認知的主觀性。比如我們認為月亮上有月兔,僅僅是因為有些像,但實際沒有。
資料不會說謊,理解(挖掘)會有偏差;說謊的人會玩弄資料;
b) 模型集可能不反映相關的總體
樣本資料太少,樣本資料不能很好的反映整體的情況下就會產生這種問題。比如1,1,2,3,5,8.看到這些資料,很容易認為是斐波納契數列,如果這是商店的每天賣出的商品數,能用斐波納契數列做商品的銷售模型?顯然不行的。
c)資料的詳細程度有誤
還是上面的例子,資料量太小,資料量太少,資料的詳細程度太低,往往得不到所要的結果,還會產生誤導。
學習的東西無用
包括兩個方面,一是得出的東西眾所周知,二是不能用,這個不能用可能是法律的,或者條件所限。
資料探勘筆記 1
維歸約規範化 選擇資料子集 視覺化模式表達 高維性 物件擁有數量不少的屬性 資料的所有權與分布 分布式資料處理 非傳統的分析 資料探勘要求自動產生和評估假設,並且資料探勘資料集多是時機性樣本,而非隨機性樣本 關聯分析 association analysis 用來發現描述資料中強相關的模式 聚類分析...
資料探勘筆記1
資料可以與類或概念相關聯。例如,在allelectronics 商店,銷售的商品類包括計算機和印表機,顧客概念包括bigspenders 和budgetspenders。用彙總的 簡潔的 精確的方式描述每個類和概念可能是有用的。這種類或概念的描述稱為類 概念描述。這種描述可以通過下述方法得到 1 資...
資料探勘筆記1
資料可以與類或概念相關聯。例如,在allelectronics 商店,銷售的商品類包括計算機和印表機,顧客概念包括bigspenders 和budgetspenders。用彙總的 簡潔的 精確的方式描述每個類和概念可能是有用的。這種類或概念的描述稱為類 概念描述。這種描述可以通過下述方法得到 1 資...