資料探勘技術基本任務

2021-09-25 20:25:22 字數 1523 閱讀 6296

定義分類:構造乙個分類模型,輸入樣本的屬性值,輸出對應的類別,將每個樣本對映到預先定義好的類別,分類模型建立在已有類標記的資料集上。

**:建立兩種或兩種以上變數間相互依賴的函式模型,然後進行**或控制。

兩步過程:通過訓練集建立**屬性(數值型的)的函式模型;在模型通過檢驗後進行**或控制。

實現過程

(1)學習步

通過歸納分析訓練樣本集來建立分類模型得到分類規則

(2)分類步

先用已知的測試樣本集評估分類規則的準確率,如果準確率是可以接受的,則使用該模型對未知類標號的待測本集進行**。

常用的分類與**演算法

(1)定義

回歸分析:確定**屬性(數值型)與其他變數間相互依賴的定量關係最常用的統計學方法。

(2)模型分類

*回歸分析

· 線性回歸

適用條件:呈線性關係,用最小二乘法求解模型係數

· 非線性回歸

適用條件:呈非線性關係,用非線性最小二乘方法求解

· logistic回歸

適用條件:因變數一般有1和0(是否)兩種取值

廣義線性回歸模型的特例,利用logistic函式將因變數的取值範圍控制在0和1之間,表示取值為1的概率

logistic回歸建模步驟:

a. 根據目的設定指標變數

b. 列車線性回歸方程,估計模型回歸係數

c. 進行模型檢驗

d. 模型應用

· 嶺回歸

適用條件 :參與建模的自變數之間具有多重共線性,是一種改進最小二乘估計的方法

· 主成分回歸

適用條件:參與建模的自變數之間具有多重共線性

根據主成分分析的思想提出,對最小二乘法的一種改進,它是引數估計的一種有偏估計,可以消除自變數間的多重共線性

· 偏最小二乘回歸等

*決策樹

採用自頂向下的遞迴方式,在內部節點進行屬性值的比較,並根據不同的屬性值從該節點向下分支,最終得到的葉節點是學習劃分的類。

*人工神經網路

一種模仿大腦神經網路結構和功能而建立的資訊處理系統,表示神經網路的輸入與輸出變數之間關係的模型。

貝葉斯網路

又稱信度網路,是bayes方法的擴充套件,是目前不確定知識表達和推理領域最

有效的理論模型之一。

支援向量機

是一種通過某種非線性對映,把低維的非線性可分轉化為高緯的線性可分,在高緯空間進行線性分析的演算法。

*常用聚類分析演算法

k-means聚類演算法

*常用聚類分析演算法

apriori演算法

*常用聚類分析演算法

平穩時間序列分析

非平穩時間序列分析

*常用聚類分析演算法

基於模型的離群點檢測方法

基於聚類的離群點檢測方法

NLP基本任務

1.序列標註 分詞 pos tag ner 語義標註 2.分類任務 文字分類 情感計算 3.句子關係判斷 entailment qa 自然語言推理 4.生成式任務 機器翻譯 文字摘要 詞法分析 lexical analysis 對自然語言進行詞彙層面的分析,是nlp基礎性工作 分詞 word seg...

NLP基本任務

分詞 word segmentation tokenization 對沒有明顯邊界的文字進行切分,得到詞序列 新詞發現 new words identification 找出文字中具有新形勢 新意義或是新用法的詞 形態分析 morphological analysis 分析單詞的形態組成,包括詞幹 ...

詳細設計的基本任務

詳細設計的基本任務 1 為每個模組進行詳細的演算法設計。用某種圖形 語言等工具將每個模組處理過程的詳細演算法描述出來。2 為模組內的資料結構進行設計。對於需求分析 概要設計確定的概念性的資料型別進行確切的定義。3 對資料結構進行物理設計,即確定資料庫的物理結構。物理結構主要指資料庫的儲存記錄格式 儲...