文字資料探勘部落格 摘錄

2021-08-20 05:21:33 字數 581 閱讀 1651

1、中文分詞領域中相較於分詞歧義而言跟讓人頭疼的乙個問題——未登入詞。

問題:分詞依賴詞庫,但是一些網路新詞,機構名稱等未登入詞卻不存在於詞庫中,這樣一來,依賴於詞庫分詞得到的結果並不是那麼可靠。一種想法是,通過詞的特徵將詞從語料中提取出來,對比詞庫得到新詞。

但是怎樣的文字片段才算乙個詞?

答:在考慮了詞出現的頻率的基礎上還要綜合考慮其內部凝固程度,自由程度。

2、由詞的自由程度的考量(乙個詞得有很豐富的左鄰字集合和右鄰字集合)設計乙個概念——資訊熵

資訊熵是關於一件事出現概率的函式,可以想到,一件事出現的概率越大,不確定性就越小,當你知道這件事一定發生的前提下你能夠獲取的資訊就越少,反之,出現的概率越小,不確定性就越大,當你知道這件事發生的前提之下你能夠獲取的資訊就越多。資訊熵也直觀的反應了時間的結果有多麼的隨機,即結果的不可**性。

3、熱度計算設計方法——貝葉斯平均

分詞只是文字資料探勘的前奏。在熱點事件的分析中,首先第一點事件的熱度怎麼來得到?這裡我們使用詞的熱度對應事件的熱度,對於詞的熱度計算,在總詞頻小的詞的處理上很難權衡,因為總詞頻小對某一時刻詞頻的佔比影響很大,採取貝葉斯平均可以使得詞頻大的詞在熱度的計算上更具有優勢

文字資料探勘(Text Data Mining)

文字資料探勘 text data mining 是指從文字資料中抽取有價值的資訊和知識的計算機處理技術。文字資料探勘是應用驅動的,在商務智慧型 business intelligence 資訊檢索 information retrieval 生物資訊處理等方面都有應用。按照挖掘物件的不同,可以將td...

文字資料探勘 詞向量

中文資料探勘的難點在於如何把文字變成計算機處理的向量,乙個好的詞向量方法可以提公升分類或者其他應用效果。我把自己接觸的詞向量技術總結一下,方便自己複習和其他感興趣的小夥伴交流學習。使用結巴或者其他中文分詞工具分完詞後就需要生成詞向量了,方便後期的資料探勘工作的展開。詞向量技術 我接觸的大致可以分成 ...

百度百科 文字資料探勘

文字資料探勘 text mining 是指從文字資料中抽取有價值的資訊和知識的計算機處理技術。中文名 文字資料探勘 外文名text mining 種 類 基於單文件的資料探勘等 方 法 文字分類,文字聚類等 概念顧名思義,文字資料探勘是從文字中進行資料探勘 data mining 從這個意義上講,文...