1.3 資料探勘
資料探勘就是在資料中發現乙個模型,它也稱為探索性資料分析,即從資料中發現有用的、有效的、意想不到的且可以理解的知識。有些目標與其他科學,如統計學、人工智慧、機器學習和模式識別是相同的。在大多數情況下,資料探勘通常被視為乙個演算法問題。聚類、分類、關聯規則學習、異常檢測、回歸和總結都屬於資料探勘任務的一部分。
資料探勘方法可以總結為兩大類資料探勘問題:特徵提取和總結。
1.3.1 特徵提取
這是為了提取資料最突出的特徵並忽略其他的特徵。下面是一些例子:
頻繁項集(frequent itemset):該模型對構成小項集籃子的資料有意義。(找出一堆專案**現最為頻繁、關係最為密切的乙個子集。——譯者注)
相似項(similar item):有時你的資料看起來像資料集的集合,而目標是找到一對資料集,它們擁有較大比例的共同元素。這是資料探勘的乙個基本問題。
1.3.2 總結
目標是簡明且近似地對資料集進行總結(或者說摘要),比如聚類,它是這樣乙個過程:檢查資料的集合並根據某些度量將資料點分類到相應的類中。目標就是使相同類中的點彼此之間的距離較小,而不同類中的點彼此之間的距離較大。
1.3.3 資料探勘過程
從不同的角度定義資料探勘過程有兩種比較流行的過程,其中更廣泛採用的一種是crisp-dm:
跨行業資料探勘標準過程(cross-industry standard process for data mining,crisp-dm)。
取樣、探索、修正、建模、評估(sample, explore, modify, model, assess,縮寫為semma),這是由美國sas研究所制定的。
1.3.3.1 crisp-dm
這個過程共分6個階段,如下圖所示。它不是一成不變的,但通常會有大量的回溯。
讓我們詳細地看一看每個階段:
業務理解(business understanding):這項任務包括確定業務目標、評估當前形勢、建立資料探勘目標並制訂計畫。
資料理解(data understanding):這項任務評估資料需求,包括原始資料收集、資料描述、資料探索和資料質量的驗證。
建模(modeling):視覺化和聚類分析對於初步分析是有用的。可以應用像廣義規則歸納(generalized rule induction)這樣的工具開發初始關聯規則。這是乙個發現規則的資料探勘技術,從條件因素與給定的決策或者結果之間的因果關係來對資料進行說明。也可以應用其他適用於資料的模型。
評估(evaluation):結果應該在第一階段中的業務目標指定的環境下對模型結果進行評估。在大多數情況下,這會導致新需求的確定,轉而返回到前乙個階段。
部署(deployment):可以使用資料探勘來驗證之前的假設或者知識。
1.3.3.2 semma
下圖是semma過程的概覽。
讓我們詳細地看一看這些過程:
取樣(sample):在該步中,提取乙個大資料集的一部分。
探索(explore):為了更好地理解資料集,在此步中搜尋未預料的趨勢和異常。
修正(modify):建立、選擇和轉換變數,以便專注於模型構建過程。
建模(model):搜尋多種模型的組合,以便**乙個滿意的結果。
評估(assess):根據實用性和可靠性對資料探勘過程的結果進行評估。
R語言資料探勘資料
包含理論知識與rpart包例項。包含演算法的自行實現,以及rweka包的c4.5演算法 tree包的cart演算法。離散選擇模型大師kenneth train的個人主頁,提供了matlab r和gauss的源 個人推薦r 中的rsghb包,採用的估計方法是hierarchical bayes演算法,...
R語言資料探勘值關聯規則挖掘
關聯規則挖掘步驟及 如下 設定工作目錄 setwd e project rexample enterpresponser apriori 載入兩個包 library matrix library arules 讀取資料 幫助文件 tr read.transactions my transaction...
《R語言資料探勘》 1 4 社交網路挖掘
1.4 社交網路挖掘 正如我們前面提到的,資料探勘是從資料中發現乙個模型,社交網路挖掘就是從表示社交網路的圖形資料中發現模型。社交網路挖掘是網路資料探勘的乙個應用,比較流行的應用有社會科學和文獻計量學 pagerank和hits演算法 粗粒度圖模型的不足 增強模型和技術 主題提取的評估以及網路的評估...