mit自然語言處理第二講:單詞計數(第三部分)
自然語言處理:單詞計數
natural language processing: (******) word counting
三、 語料庫相關
未完待續:第四部分
from:
自然語言處理:單詞計數
natural language processing: (******) word counting
四、 分詞相關
五、 結論(conclusions)
a) 語料庫被廣泛用於文字處理中(corpora widely used in text processing)
b) 使用的語料庫是熟語料或生語料(corpora used either annotated or raw)
c) 齊夫定律及其與自然語言的聯絡(zipf』s law and its connection to natural language)
d) 資料稀疏問題是語料庫處理方法中的乙個主要問題(sparsity is a major problem for corpus processing methods)
下一講(next time): 語言模型(language modeling)
第二講結束!
第三講:語言模型
from:
MIT自然語言處理第二講 單詞計數(第三 四部分)
mit自然語言處理第二講 單詞計數 第三部分 自然語言處理 單詞計數 natural language processing word counting 三 語料庫相關 未完待續 第四部分 from 自然語言處理 單詞計數 natural language processing word count...
自然語言處理(二)
機器學習 batch gradient descent 梯度下降法 穩定可靠,更新速度慢。必須遍歷所有的訓練資料求偏導數,才能更新一次引數。stochastic gradient descent 梯度下降法 不穩定,更新快。每看見乙個資料點就更新,非常不穩定。mini batch gradient ...
自然語言處理(五) 單詞糾錯
精準的定義就不多說了,直接上例子來理解這個編輯距離。編輯主要有三個操作 插入 刪除 修改。例如 goood變為good,只需要刪除乙個o,因此編輯距離是1。gd變為god。只需要插入乙個o,因此編輯距離是1。gwd變為god,只要修改w為o,因此編輯距離是1。例子如下 y字串是正確的字串的一部分,x...