1、變數名必須以字母開頭,可以包含數字和下劃線,名稱是區分大小寫的,變數名不能遊空格,可以 用下劃線 ( _ ) 把單詞分開
2、利用freqdist尋找文字中最常見的50個詞:
第89行 計算whale出現的次數
累積頻率圖
計算文字中每個詞的長度:
fdist.keys() 只有20個不同的元素(說明只有20種不同的詞長)
fdist.freq(3) 表示 詞長為3的詞佔比
例子描述
fdist=freqdist(samples)
建立包含給定樣本的頻率分布
fdist.inc(sample)
增加樣本
fdist['monstrous']
計數給定樣本出現的次數
fdist.freq('monstrous')
給定樣本的頻率
fdist.n()
樣本總數
fdist.keys()
以頻率遞減順序排序的樣本鍊錶
for sample in fdist:
以頻率遞減的順序遍歷樣本
fdist.max()
數值最大的樣本
fdist.tabulate()
繪製頻率分布表
fdist.plot()
繪製頻率分布圖
fdist.plot(cumulative=true)
繪製累積頻率分布圖
fdist1 < fdist2
測試樣本在fdist1中出現的頻率是否小於fdist2
NLP 統計頻率
引入必要的包 import re from collections import counter方法一 version one defget max value v1 text 統一為小寫字母 text text.lower 返回所有的字母 result re.findall a za z text...
(二)簡單的NLP例項
1 情感分析 1 資料 s1 this is a good book s2 this is a awesome book s3 this is a bad book s4 this is a terrible book 2 把資料處理成向量 不關心單詞出現的順序 統計上面文件出現過的所有單詞有 th...
從統計學看NLP之概述(1)
在我看來nlp的所有思想都是基於統計學來的,不管是hmm,crf還是說目前火熱的神經網路,而目前入行nlp領域的同學可能大部分都沒有接觸過其中的統計學原理,所謂的神經網路沒可解釋性也導致大家沒興趣去研究為什麼nlp的神經網路要這麼去設計。說到機器翻譯,目前大部分都是採用seq2seq的模型,如果你是...