資料探勘的一般步驟

2021-08-20 22:40:16 字數 956 閱讀 8078

從資料本身來考慮,通常資料探勘需要有資訊收集、資料整合、資料規約、資料清理、資料變換、資料探勘實施過程、模式評估和知識表示等 8 個步驟。

(1)資訊收集:根據確定的資料分析物件抽象出在資料分析中所需要的特徵資訊,然後選擇合適的資訊收集方法,將收集到的資訊存入資料庫。對於海量資料,選擇乙個合適的資料儲存和管理的資料倉儲是至關重要的。

(3)資料規約:執行多數的資料探勘演算法即使在少量資料上也需要很長的時間,而做商

業運營資料探勘時往往資料量非常大。資料規約技術可以用來得到資料集的規約表示,它小得多,但仍然接近於保持原資料的完整性,並且規約後執行資料探勘結果與規約前執行結果相同或幾乎相同。

(4)資料清理:在資料庫中的資料有一些是不完整的(有些感興趣的屬性缺少屬性值),含雜訊的(包含錯誤的屬性值),並且是不一致的(同樣的資訊不同的表示方式),因此需要進行資料清理,將完整、正確、一致的資料資訊存入資料倉儲中。不然,挖掘的結果會差強人意。

(5)資料變換:通過平滑聚集,資料概化,規範化等方式將資料轉換成適用於資料探勘的形式。對於有些實數型資料,通過概念分層和資料的離散化來轉換資料也是重要的。

(6)資料探勘過程:根據資料倉儲中的資料資訊,選擇合適的分析工具,應用統計方法、事例推理、決策樹、規則推理、模糊集、甚至神經網路、遺傳演算法的方法處理資訊,得出有用的分析資訊。

(7)模式評估:從商業角度,由行業專家來驗證資料探勘結果的正確性。

(8)知識表示:將資料探勘所得到的分析資訊以視覺化的方式呈現給使用者,或作為新的知識存放在知識庫中,供其他應用程式使用。

資料探勘過程是乙個反覆迴圈的過程,每乙個步驟如果沒有達到預期目標,都需要回到前面的步驟,重新調整並執行。不是每件資料探勘的工作都需要這裡列出的每一步,例如在某個工作中不存在多個資料來源的時候,步驟(2)資料整合的步驟便可以省略。步驟(3)資料規約(4)資料清理(5)資料變換又合稱資料預處理。在資料探勘中,至少60%的費用可能要花在步驟(1)資訊收集階段,而至少 60%以上的精力和時間是花在資料預處理過程上。

資料探勘的一般過程

1.資料集選取或構造 根據任務的目的,選擇資料集。或者從實際中構造自己需要的資料。2.資料預處理 確定資料集後,就開始對資料進行預處理使得資料能夠為我們所用了。資料預處理提高資料質量 準確性 完整性和一致性,包括資料清理 資料整合 資料規約和資料變換方法。1 資料清理 忽略元祖 人工填寫缺失值 使用...

SEO一般步驟

seo並不是簡單的幾個秘訣或幾個建議,而是一項需要足夠耐心和細緻的腦力勞動。大體上,seo包括六個環節 2 架構分析 結構符合搜尋引擎的爬蟲喜好則有利於seo。架構分析包括 剔除 架構不良設計 實現樹狀目錄結構 導航與鏈結優化。3 目錄和頁面優化 seo不止是讓 首頁在搜尋引擎有好的排名,更重要的是...

jdbc的一般步驟

1.匯入jdbc驅動jar 2.註冊jdbc驅動 引數 驅動程式類名 class.forname 驅動程式類名 3.獲得connection物件 conn.getstatement 方法建立物件 用於執行sql語句 execute sql 執行任何sql,常用執行ddl executeupdate ...