1.1 古登堡語料庫(project gutenberg)
#nltk包含gutenberg的一小部分文字
平均詞長 平均句子長度 本文中每個詞出現的平均次數
raw()函式能在沒有 進行過任何語言學處理之前把檔案的內容分析出來。
sents()函式把文字劃分成句子,每個句子是乙個詞鍊錶。
1.2 網路和聊天文字
from nltk.corpus import webtext
#還有from nltk.corpus import nps_chat
for fileid in webtext.fileids():
print fileid, webtext.raw(fileid)[:65], '...'
1.3 布朗語料庫from nltk.corpus import brown
1.4 路透社語料庫from nltk.corpus import reuters
1.5 就職演說語料庫from nltk.corpus import inaugural
1.6 標註文字語料庫
1.7 其他預言的語料庫
from nltk.corpus import cess_esp.words()
NLTK(處理原始文字)
import nltk from urllib.request import urlopen url raw urlopen url read print type raw print len raw print raw 75 輸出 1201733 b xef xbb xbfthe project ...
NLTK 學習筆記(2)
pos速查表 標記含義 例子adj 形容詞new,good,high,special,big,local adv副詞 really,already,still,early,now cnj連詞 and,or,but,if,while,although det限定詞 the,a,some,most,ev...
文字分析 NLTK訪問檔案
coding utf 8 from future import division import nltk,re,pprint 從網路和硬碟中訪問文字 1 電子書 2 處理的html 3 處理搜尋引擎的結果 4 讀取本地檔案 5 從pdf,word及其他二進位制格式中讀取 6 捕獲使用者輸入 7 nl...