NLP 簡單統計

2021-09-01 23:59:56 字數 1128 閱讀 3229

1、變數名必須以字母開頭,可以包含數字和下劃線,名稱是區分大小寫的,變數名不能遊空格,可以 用下劃線 ( _ ) 把單詞分開

2、利用freqdist尋找文字中最常見的50個詞:

第89行 計算whale出現的次數

累積頻率圖

計算文字中每個詞的長度:

fdist.keys() 只有20個不同的元素(說明只有20種不同的詞長)

fdist.freq(3) 表示 詞長為3的詞佔比

例子描述

fdist=freqdist(samples)

建立包含給定樣本的頻率分布

fdist.inc(sample)

增加樣本

fdist['monstrous']

計數給定樣本出現的次數

fdist.freq('monstrous')

給定樣本的頻率

fdist.n()

樣本總數

fdist.keys()

以頻率遞減順序排序的樣本鍊錶

for sample in fdist:

以頻率遞減的順序遍歷樣本

fdist.max()

數值最大的樣本

fdist.tabulate()

繪製頻率分布表

fdist.plot()

繪製頻率分布圖

fdist.plot(cumulative=true)

繪製累積頻率分布圖

fdist1 < fdist2

測試樣本在fdist1中出現的頻率是否小於fdist2

NLP 統計頻率

引入必要的包 import re from collections import counter方法一 version one defget max value v1 text 統一為小寫字母 text text.lower 返回所有的字母 result re.findall a za z text...

(二)簡單的NLP例項

1 情感分析 1 資料 s1 this is a good book s2 this is a awesome book s3 this is a bad book s4 this is a terrible book 2 把資料處理成向量 不關心單詞出現的順序 統計上面文件出現過的所有單詞有 th...

從統計學看NLP之概述(1)

在我看來nlp的所有思想都是基於統計學來的,不管是hmm,crf還是說目前火熱的神經網路,而目前入行nlp領域的同學可能大部分都沒有接觸過其中的統計學原理,所謂的神經網路沒可解釋性也導致大家沒興趣去研究為什麼nlp的神經網路要這麼去設計。說到機器翻譯,目前大部分都是採用seq2seq的模型,如果你是...