新詞發現與詞的切分差不多是同一回事
1.資訊熵
最常用2.基於切分的新詞發現
相比1計算量要小,可能引數選取需要根據文字資料量來調整
3.遺忘演算法
可能是計算量最小的演算法了,效果有待驗證
特點:無監督學習
o(n)級時間複雜度
訓練、執行為同一過程,可無縫處理流式資料
未登入詞、新詞、登入詞沒有區別
領域自適應:領域變化時,詞條、詞頻自適應的隨之調整
演算法中僅使用到頻數這一語言的共性特徵,無需對任何字元做特別處理,因此原理上跨語種。
主要內容就是下面這個公式
更新中~~~
關聯規則發現和新詞發現
關聯規則發現常常用在購物籃分析中。假設a和b同時被買的頻率很高 支援度 買a的人同時買b的可能性也很高 置信度 則可以形成一條規則 a b。表示買a的人也會買b。對於自然語言處理來說,分詞非常關鍵,而分詞都要依賴詞庫。新詞每天都在產生,如果詞庫中不包含某乙個新詞,則這個詞就不會被分出來,所以自動發現...
Java新詞發現演算法碼源之使用
最近在學中文分詞。像是什麼樸素貝葉斯,hmm,n gram方法之類的,重要的還有發現新詞。發現新詞用到了github上的sing1ee dict build,講解在 自動構建中文詞庫 挺有意思的。在github上,位址為 在idea上開啟後,builder方法不行 改到main方法,更改後才行 注意...
換錢的方法數
題目 給定陣列arr,arr中所有的值都為整數且不重複。每個值代表一種面值的貨幣,每種面值的貨幣可以使用任意張,再給定乙個整數代表要找的錢數,求換錢有多少種方法。舉例 arr 5,10,25,1 aim 0 組成0元的方法有1種,就是所有面值的貨幣都不用。所以返回1。arr 5,10,25,1 ai...