文字資料探勘(Text Data Mining)

2021-09-01 01:41:53 字數 510 閱讀 9875

文字資料探勘(text data mining)是指從文字資料中抽取有價值的資訊和知識的計算機處理技術。文字資料探勘是應用驅動的,在商務智慧型(business intelligence)、資訊檢索(information retrieval)、生物資訊處理等方面都有應用。

按照挖掘物件的不同,可以將tdm分為基於單文件的資料探勘和基於文件集的資料探勘。

tdm可分為3層:

底層是tdm基礎領域層,包括機器學習、數理統計和自然語言處理。

中間是tdm基礎技術層,包括文字資訊抽取、文字分類、文字聚集、文字資料壓縮和文字資料處理,其中文字資訊抽取和文字資料壓縮是***獨有的技術。

最上層是應用領域層,包括資訊訪問和知識發現,資訊訪問包括資訊檢索、資訊瀏覽、資訊過濾和資訊報告,知識發現包括資料分析和資料**。

web文字資料探勘是web內容挖掘的最主要、最重要的部分,比資料探勘具有更高的商業潛力。web文字資料探勘是對web上大量文件集合的內容進行總結、分類、聚集和關聯分析,以及利用wen文件進行趨勢**等。

文字資料探勘 詞向量

中文資料探勘的難點在於如何把文字變成計算機處理的向量,乙個好的詞向量方法可以提公升分類或者其他應用效果。我把自己接觸的詞向量技術總結一下,方便自己複習和其他感興趣的小夥伴交流學習。使用結巴或者其他中文分詞工具分完詞後就需要生成詞向量了,方便後期的資料探勘工作的展開。詞向量技術 我接觸的大致可以分成 ...

文字資料探勘部落格 摘錄

1 中文分詞領域中相較於分詞歧義而言跟讓人頭疼的乙個問題 未登入詞。問題 分詞依賴詞庫,但是一些網路新詞,機構名稱等未登入詞卻不存在於詞庫中,這樣一來,依賴於詞庫分詞得到的結果並不是那麼可靠。一種想法是,通過詞的特徵將詞從語料中提取出來,對比詞庫得到新詞。但是怎樣的文字片段才算乙個詞?答 在考慮了詞...

百度百科 文字資料探勘

文字資料探勘 text mining 是指從文字資料中抽取有價值的資訊和知識的計算機處理技術。中文名 文字資料探勘 外文名text mining 種 類 基於單文件的資料探勘等 方 法 文字分類,文字聚類等 概念顧名思義,文字資料探勘是從文字中進行資料探勘 data mining 從這個意義上講,文...