python自然語言處理第一二章

2021-08-16 12:08:00 字數 1313 閱讀 6732

隨筆記錄,有待完善。

1.text1.concordance("word")  在text1中搜尋word這個詞

text2.similar("word")      在text1中搜尋在類似上寫問中出現的詞

text2.comon_text("word1","word2")   在text2中搜尋研究共用兩個或兩個以上詞彙的上下文

text2.dispersion_plot(["word1","word2"]) 詞彙分布圖

text3.generate()  隨機生成文字

text.index("word") 查詢詞彙位置

2.set(text3)  text3的詞彙表

sort(text2) text2排序

' '.join(['monty','python']) 將詞彙組合成鍊錶

'monty python'.split() 將鍊錶拆分成詞彙

3.fdist1=freqdist(text1)  單詞頻率分布

fdist1.plot(50,cumulative=true) 詞彙累積頻率圖

fdist1.hapaxes() 只出現一次的詞彙

fdist1[w]>3  w出現3次以上

fdist1.inc(sample) 增加樣本

fdist1.freq('monstrous')  樣本頻率

fdist1.collocations()  雙連詞

fdist1.items() 所有鍵值對

p23 more

4.w for w in v if len(w)>15 細粒度的選擇詞

5.p25 詞彙比較運算子

第二章 獲取文字語料和詞彙資源

1.raw()函式能在沒有進行過任何語言學處理之前把檔案的內容分析出來,len(futenberg.raw('blake_poems.txt'))告訴我們文字中詞彙的個數,包括詞之間的空格

sent()函式吧文字劃分成句子,沒乙個句子是乙個詞鍊錶

2.p45布朗語料部分示例文件

p49nlk中的一些語料庫和語料庫樣本

p53 nltk中定義的基本語料庫函式

3.cfd=nltk.conditionalfreqdist(

(genre,word)

for genre in brown.categories()    語料庫類別

for word in brown.words(categories=genre))  條件頻率分布函式

cfd.tabulate(condtions=genres,sample=modals)

4.nltk.bigrams(sent) 生成雙連詞,產生隨機文字

《Python自然語言處理》

python自然語言處理 基本資訊 出版社 人民郵電出版社 isbn 9787115333681 出版日期 2014 年6月 開本 16開 頁碼 508 版次 1 1 所屬分類 計算機 軟體與程式設計 python 更多關於 python自然語言處理 內容簡介 書籍計算機書籍 自然語言處理 natu...

自然語言處理

自然語言處理主要步驟包括 2.詞法分析 對於英文,有詞頭 詞根 詞尾的拆分,名詞 動詞 形容詞 副詞 介詞的定性,多種詞意的選擇。比如diamond,有菱形 棒球場 鑽石3個含義,要根據應用選擇正確的意思。3.語法分析 通過語法樹或其他演算法,分析主語 謂語 賓語 定語 狀語 補語等句子元素。4.語...

自然語言處理

前言 自然語言處理 natural language processing 是計算科學領域與人工智慧領域中的乙個重要方向。它研究能實現人與計算機之間用自然語言進行有效通訊的各種理論和方法。自然語言處理是一門融語言學 電腦科學 數學於一體的科學。因此,這一領域的研究將涉及自然語言,即人們日常使用的語言...