資料探勘概念與技術 文字挖掘

2021-08-25 18:54:32 字數 1289 閱讀 2023

1、文字檢索的基本度量——[color=red]準確率和召回率[/color][url]

2、文字檢索方法——[color=red]向量空間模型[/color][url]

3、文字索引技術

[color=red](1)倒排索引[/color]

一種索引結構,維持兩個雜湊索引表document_table(文件表)和term_table(詞表)。

documnet_table:兩個欄位doc_id和posting_list,posting_list是出現在文件中的詞(或指向詞的指標)的列表,按某種相關度量排序。

term_table:term_id和posting_list,posting_list是出現該詞的文件識別符號的列表。

[color=red](2)特徵檔案[/color]

是乙個儲存資料庫中每個文件的特徵記錄的檔案。

4、文字維度歸約

[color=red](1)潛在語義標引(lsi)[/color]

是最為流行的一種文件維度歸約演算法。

文件矩陣為a(m*n),m為文件矩陣中包含的詞的數目,n為文件的數目。a[size=small]t[/size]*a表示文件-文件間的關聯矩陣, a*a[size=small]t[/size]表示詞語-詞語間的關聯矩陣.

對a作奇異值分解(svd),a=u∑v[size=small]t[/size],選取適當的k值,將∑中最大的k個奇異值及其相應行、列儲存,其他的奇異值及其相應行、列刪除;再取u,v最前面的k個列和k個行向量,分別構建uk和vk,由此得到ak=uk∑kvk[size=small]t[/size]

k的選取,在矩陣svd分解中,a=u∑v[size=small]t[/size]。其中對角矩陣∑為

∑=diag(σ_1,σ_2,σ_3,…,σ_r,0…0),滿足σ_1≥σ_2≥⋯≥σ_r,可以按照如下規則選取降維因子k,令k滿足

(∑_(i=1)^k▒σ_i )/(∑_(i=1)^r▒σ_i )≥θ

包含原始矩陣資訊的閾值θ,可選取為:40%,50%,70%,80%。

更新策略:對已經進行了奇異值分解的詞頻矩陣,若有新的文件或詞項加入,主要有兩種方法進行svd更新:重新計算svd或者直接加入。直接加入是一種簡單的更新策略。

5、文字挖掘方法

[color=red](2)文字分類[/color]

一般過程如下:取乙個預分類的文件集作為訓練集。然後,分析訓練集,以匯出分類模式。通常,需要用乙個檢驗過程對該分類模式求精。

k最近鄰分類器、貝葉斯分類、基於關聯的分類

[color=red](3)文字聚類[/color],混合模型聚類方法,lsi,光譜聚類方法

資料探勘概念與技術

在現實社會中的資料往往存在雜訊資料 缺失值和不一致資料的問題。為了提高資料探勘工作的效率和準確性,需要使用資料清理 資料整合 資料歸約和資料變換等方法對資料進行預處理操作。資料質量的三個要素是 準確性 完整性和一致性。資料清理試圖填充缺失值 光滑雜訊並識別離群點 糾正資料中的不一致。忽略元組。該方法...

資料探勘概念與技術筆記

1.什麼是資料探勘?資料探勘是從大量資料中提取或 挖掘 知識,很多人也把資料探勘視作 資料庫中的知識發現 kdd 資料探勘的步驟包括 2.什麼是資料倉儲?資料倉儲是乙個從多個資料來源收集的資訊儲存,存放在乙個一致的模式下,並通常駐留在單個站點。通俗講,資料倉儲是通過資料清理 資料變換 資料整合 資料...

《資料探勘概念與技術》書記 1

有感知識點 資料探勘又稱資料中的知識發現 kdd 知識發現過程主要由以下步驟的迭代序列組成 資料清理 消除雜訊和刪除不一致資料等 資料整合 多種資料來源可以組合在一起 資料選擇 從資料庫中提取與分析任務相關的資料 資料變化 通過彙總或聚集操作,把資料變換和統一成適合挖掘的形式 資料探勘 基本步驟,使...