關聯規則發現和新詞發現

2021-06-07 22:41:58 字數 630 閱讀 4729

關聯規則發現常常用在購物籃分析中。假設a和b同時被買的頻率很高(支援度),買a的人同時買b的可能性也很高(置信度),則可以形成一條規則:a->b。表示買a的人也會買b。

對於自然語言處理來說,分詞非常關鍵,而分詞都要依賴詞庫。新詞每天都在產生,如果詞庫中不包含某乙個新詞,則這個詞就不會被分出來,所以自動發現新詞酒很關鍵了。現在的自然語言處理還達不到語義發現新詞的能力,也就是說機器第一次看到乙個新詞,它不會認為這是乙個新詞,而人可以有這個能力。比如對於新詞「妹紙」,人可以通過山下文以及其它資訊識別出這是乙個新詞。機器識別新詞主要依賴統計,可以用到購物籃分析中的關聯規則。如果「妹紙」出現的頻率足夠高(支援度),「妹」在「紙」前以及「紙」在「妹」後出現的可能性也很高(置信度),則「妹紙」就很有可能是乙個新詞。真的是這樣子嗎?未必!

還以上面的購物籃分析為例。假設abc的支援度和置信度也很高,我們就不能單獨任務a->b是一條規則,而應該有一條更具概括性的規則:a->b,c。同樣,儘管「腫麼」一詞的支援度和置信度都很高,但是「腫麼了」也很高,所以我們就不能認為「腫麼」是乙個新詞,而是某乙個詞的一部分。

關聯規則學習、監督學習、無監督學習、半監督學習,想必期間都有很多深刻的聯絡的。關聯規則中的支援度和置信度在分類演算法中如何體現?分類演算法中的類別又對應著聚類演算法中的什麼?現在還沒有發現,慢慢感悟吧!

聚類和關聯規則發現

聚類都有兩個前提 距離相近的實體更有可能是同乙個類 a與b相似,b與c相似,則a與c相似的可能性很大。所以,在聚類演算法中,距離的定義至關重要。考慮一下購物籃分析,試著給商品聚類。所知道的資訊只有某些商品同時被買的記錄,這也是關聯規則發現所需要的最基本的資訊。可以根據a和b出現在同一購物籃中的頻率來...

新詞發現方法資料

新詞發現與詞的切分差不多是同一回事 1.資訊熵 最常用2.基於切分的新詞發現 相比1計算量要小,可能引數選取需要根據文字資料量來調整 3.遺忘演算法 可能是計算量最小的演算法了,效果有待驗證 特點 無監督學習 o n 級時間複雜度 訓練 執行為同一過程,可無縫處理流式資料 未登入詞 新詞 登入詞沒有...

Java新詞發現演算法碼源之使用

最近在學中文分詞。像是什麼樸素貝葉斯,hmm,n gram方法之類的,重要的還有發現新詞。發現新詞用到了github上的sing1ee dict build,講解在 自動構建中文詞庫 挺有意思的。在github上,位址為 在idea上開啟後,builder方法不行 改到main方法,更改後才行 注意...