from __future__ import division
import nltk
nltk.download()
from nltk.book import *
#搜尋文字
text1.concordance("monstrous")
#出現在相似上下文中德詞彙
text1.similar("monstrous")
#兩個或兩個以上的詞共同的上下文
text2.common_contexts(["monstrous","very"])
import matplotlib
#離散圖判斷詞彙在文字中的位置,從文字開頭算起在它前面有多少詞
text4.dispersion_plot(["citizens","democracy","freedom","duties","american"])
#產生和該文字風格相近的段落
text3.generate()
#返回所有識別符號的個數
len(text3)
#為每個標示符計數,set表示集合,集合中元素只出現一次
sorted(set(text3))
len(set(text3))
len(text3)/len(set(text3))
#計算乙個詞在文字中出現次數,佔據的百分比
text3.count("smote")
100*text4.count("a")/len(text4)
fdist1=freqdist(text1)#計算text1中的詞頻
vocabulary=fdist1.keys()#關鍵字資訊
fdist1['whale']#『whale』詞出現的頻率
fdist1.plot(50,cumulative=true)#詞頻前50的詞彙進行繪圖
v = set(text1)#text1 輸出詞彙集合中詞長超過15的詞彙
long_words=[w for w in v if len(w) > 15]
text4.collocations()#搭配頻繁出現的雙連詞
[len(w) for w in text1]#text1中每個詞的詞長
fdist=freqdist([len(w) for w in text1])#每個詞長對應出現的頻率
fdist#詞長只有20種
fdist.max()#出現頻率最高的詞長
fdist.freq(3)#給定樣本的頻率,佔全部詞彙的百分比
Python自然語言處理第一章
nltk即natural language toolkit,是乙個先進的用於處理自然語言的python程式,和python中的其他庫一樣,我們可以呼叫它來處理各種文字資訊。nltk功能強大,它不僅為我們學習nlp提供了豐富的語料庫,也為我們處理這些語料庫資訊提供了大量的方法,比如concordanc...
《Python自然語言處理》第一章筆記
import nltk nltk.download 引入book包 from nltk.book import 搜尋文字,顯示指定單詞及其上下文 text1.concordance monstrous 查詢出現在相似上下文中的詞 text1.similar monstrous 查詢兩個或兩個以上詞彙...
python自然語言處理 第一章答案
1.嘗試使用python直譯器作為乙個計算器,輸入表示式,如 12 4 1 12 42.26 個字母可以組成 26 的 10 次方或者 26 10個 10 字母長的字串。也就是 141167095653376l 結尾處的 l 只是表示這是 python 長數字格式 100 個字母長度的字串可能有多少...