6.製作《理智與情感》中4個主角:elinor,marianne,eward,和willoughby的分布圖。在這部**中關於男性和女性所扮演的不同角色,你能觀察到什麼?你能找出一對夫妻嗎?
import nltkfrom nltk.book import *
freq=freqdist(text2)
cfd=nltk.conditionalfreqdist((word,fdist[word])
for word in text2 if word in ['elinor','marianne','edward','willoughby']
if fdist[word]>=0)
cfd.tabulate(conditions=['elinor','marianne','edward','willoughby'])
7.尋找text5中的搭配。
text5.collocations() #查詢比較頻繁的雙連詞15.複習1.4節討論的條件語句。在聊天語料庫(text5)中查詢所有以字母b開頭的詞。按字母順序顯示出來。 [w for w in text5 if w.startswith('b')]
22.找出聊天語料庫中所有四個字母的詞。使用頻率分布函式(freqdist),以頻率從高到底顯示這些詞。
word=[w for w in text5 if len(w)==4]fdist=freqdist(word)
fdist
23.複習1.4節中的條件迴圈。使用for和if語句組合迴圈遍歷電影劇本《巨蟒和聖杯》(text6)中的詞,輸出所有大寫的詞,每行輸出乙個。
for w in text6:if w.isupper():
print w
24.編寫表示式並找出text6中所有符合下列條件的詞。結果應該以詞鍊錶形式表示['word1','word2'...].
a. 以ize結尾
b.包含字母z
c.包含字母序列pt
d.除了首字母外全部都是小寫字母(即titlecase)
[w for w in text6 if w.endswith('ize') and w.contains('z') and w.contains('pt') and w[1:].islower()]28.定義乙個函式percent(word,text),計算乙個給定的詞在文字中出現的頻率,結果以百分比顯示。
def percent(word,text):from __future__ import division
fdist=freqdist(word)
return 100*fdist[word]/len(text)
python自然語言處理 第一章
from future import division import nltk nltk.download from nltk.book import 搜尋文字 text1.concordance monstrous 出現在相似上下文中德詞彙 text1.similar monstrous 兩個或兩...
Python自然語言處理第一章
nltk即natural language toolkit,是乙個先進的用於處理自然語言的python程式,和python中的其他庫一樣,我們可以呼叫它來處理各種文字資訊。nltk功能強大,它不僅為我們學習nlp提供了豐富的語料庫,也為我們處理這些語料庫資訊提供了大量的方法,比如concordanc...
《Python自然語言處理》第一章筆記
import nltk nltk.download 引入book包 from nltk.book import 搜尋文字,顯示指定單詞及其上下文 text1.concordance monstrous 查詢出現在相似上下文中的詞 text1.similar monstrous 查詢兩個或兩個以上詞彙...