定義資料探勘任務

2021-07-04 22:14:59 字數 1409 閱讀 5356

乙個資料探勘任務可以通過資料探勘查詢,它是資料探勘系統的輸入。資料探勘查詢用一下原語定義:

①任務相關資料:我想挖據什麼資料集?

②我想挖掘什麼知識?

③什麼背景知識這裡可能有用?

④哪些度量可以用來評估模式的興趣度?

⑤我希望如何提供發現的模式?

一、任務相關的資料

這個原語說明了待挖掘的資料。通常,使用者感興趣的只是資料庫的乙個子集。在關聯式資料庫中,任務相關的資料可以通過選擇、投影和聚集等操作關係查詢收集。這種資料提取可以看做是資料探勘的子任務。資料收集過程產生乙個新的資料關係,稱作為:

初始資料關係

(檢視)。這種可用於資料探勘的資料集稱作

可挖掘的檢視

。二、要挖掘的知識型別

說明挖掘什麼型別的知識是非常重要的,因為這決定使用什麼資料探勘功能。知識型別包括:概念描述、分類/**、聚類、關聯和演變分析。

三、背景知識:概念分層

背景知識是關於資料探勘領域的知識,它們在發現過程中是非常有用的。現在我們來看概念分層的背景知識上,概念分層允許在多個抽象層上發現知識。

概念分層

定義了一組由低層概念集到高層概念集的對映。將較低層的概念(城市)對映到較高層更一般的概念(國家)。

概念分層是一種有用的背景知識形式,它使得原始資料可以在較高的、一般的抽象層上進行處理。資料的泛化或上捲可以通過用較高層概念替換較低層的概念。泛化的另乙個優點是資料壓縮。如果結果過於一般化,概念分層也允許下鑽,概念值用較低層的概念替代。對於給定的屬性或維,根據不同使用者的觀點,可能有多個概念分層。

概念分層可以劃分為4種型別:

模式分層

:是資料庫模式屬性間的全序或偏序。模式分層可以形式地表示屬性間的語義聯絡。通常,乙個模式分層是指資料倉儲的乙個維。

如:address:street

集合分組分層

:是將給定的屬性或維的值組織成常量組或區間值。組之間可以定義全序或偏序。

如:屬性age的集合分組分層

=>all(age)

操作匯出的分層

:是根據使用者、專家或資料探勘系統說明的操作分層。操作可能包括資訊編碼串的解碼,由複雜資料物件提取資訊和資料聚類。

基於規則的概念分層

:指整個概念分層或它的一部分由一組規則定義,並且根據當前資料庫資料和規則定義動態地計算。

如:可以將商品分類為:low_profit_margin,medium_profit_margin,high_profit_margin,按照一定的規則。

四、興趣度度量

儘管任務相關的資料和要挖掘的知識型別(如:特徵和關聯等),的說明可以大大減少產生規則的數量,資料探勘過程仍可能產生大量模式。通常這些模式中只有一小部分是使用者感興趣的。這樣使用者需要進一步限制挖掘過程產生的不感興趣的模式數量。這可以通過設定興趣度來實現。

置信度和支援度。

五、資料探勘查詢語言(dmql)

datawhale資料探勘任務六

通過之前的部落格可以看出,隨機森林的表現效果比較好。所以本次stacking融合的比較基準就是lr。至於融合,用的是隨機森林和邏輯回歸進行融合。為 任務六 使用stacking進行模型融合 構建 stacking 模型,用之前表現較好的lr和隨機森林進行模型融合 s clf stackingclas...

datawhale資料探勘課程 任務二

特徵衍生 在實際工作中,自己用到的是特徵公升維,即one hot encoding。另一種特徵衍生方法是特徵組合,比如拼接年齡 收入區間成為乙個新特徵,但是在金融行業一般不這麼做 因為可解釋性差容易不符合監管要求。計算iv函式。在機器學習的二分類問題中,iv值 information value 主...

資料探勘技術基本任務

定義分類 構造乙個分類模型,輸入樣本的屬性值,輸出對應的類別,將每個樣本對映到預先定義好的類別,分類模型建立在已有類標記的資料集上。建立兩種或兩種以上變數間相互依賴的函式模型,然後進行 或控制。兩步過程 通過訓練集建立 屬性 數值型的 的函式模型 在模型通過檢驗後進行 或控制。實現過程 1 學習步 ...