NLP 簡單統計

1、變數名必須以字母開頭，可以包含數字和下劃線，名稱是區分大小寫的，變數名不能遊空格，可以用下劃線 ( _ ) 把單詞分開

2、利用freqdist尋找文字中最常見的50個詞：

第89行計算whale出現的次數

累積頻率圖

計算文字中每個詞的長度：

fdist.keys() 只有20個不同的元素（說明只有20種不同的詞長）

fdist.freq(3) 表示詞長為3的詞佔比

例子描述

fdist=freqdist(samples)

建立包含給定樣本的頻率分布

fdist.inc(sample)

增加樣本

fdist['monstrous']

計數給定樣本出現的次數

fdist.freq('monstrous')

給定樣本的頻率

fdist.n()

樣本總數

fdist.keys()

以頻率遞減順序排序的樣本鍊錶

for sample in fdist:

以頻率遞減的順序遍歷樣本

fdist.max()

數值最大的樣本

fdist.tabulate()

繪製頻率分布表

fdist.plot()

繪製頻率分布圖

fdist.plot(cumulative=true)

繪製累積頻率分布圖

fdist1 < fdist2

測試樣本在fdist1中出現的頻率是否小於fdist2

NLP 統計頻率

引入必要的包 import re from collections import counter方法一 version one defget max value v1 text 統一為小寫字母 text text.lower 返回所有的字母 result re.findall a za z text...

（二）簡單的NLP例項

1 情感分析 1 資料 s1 this is a good book s2 this is a awesome book s3 this is a bad book s4 this is a terrible book 2 把資料處理成向量不關心單詞出現的順序統計上面文件出現過的所有單詞有 th...

從統計學看NLP之概述（1）

在我看來nlp的所有思想都是基於統計學來的，不管是hmm,crf還是說目前火熱的神經網路，而目前入行nlp領域的同學可能大部分都沒有接觸過其中的統計學原理，所謂的神經網路沒可解釋性也導致大家沒興趣去研究為什麼nlp的神經網路要這麼去設計。說到機器翻譯，目前大部分都是採用seq2seq的模型，如果你是...

NLP 簡單統計

NLP 統計頻率

（二）簡單的NLP例項

從統計學看NLP之概述（1）

相關推薦