自然語言處理 nltk 語料庫

語料庫可以從wordnet內建語料庫匯入，也可以從外界匯入

內建語料庫列表可以在nltk官網查詢

from nltk.corpus import reuters		#路透社語料庫

查詢語料庫內容，可以呼叫物件的fileids()函式, 該函式得到檔案及其相對路徑

files=reuters.fileids(
)print
(files)

進一步訪問具體內容，可以採用物件的words()函式

words=reuters.words(
''test/
14826
'')

該語料庫已經按照層次分為90個主題

cat=reuters.categories(
)print
(cat)

可以按照主題進行訪問

x=reuters.words(categories=
['bop'
,'cocoa'
])

from nltk.corpus import browm 
import nltk
print
(brown.catagories())
text=brown.words(catagories=
'fiction'
)

freqdist: 詞頻統計

fdist=nltk.freqdist(text)
print
(fdist[
'who'
])

屬性：

fdist.
max(
)fdist.most_common(10)
fdist.plot(cumulative=
true
)

找出同義詞集

from nltk.corpus import wordnet as wn
chair=
'chair'
chair_synsets=wn.synset(chair)
for synset in chair_synsets:
print
(synset,
':')
print
('definition:'
,synset.definition())
# 定義
print
('lemmas/synonomou:'
,synset.lemma_names())
#詞條print
('example:'
,synset.example(),
'\n'
)#例句

自然語言處理中語料庫的理解

語料庫中存放的是在語言實際使用中真實出現過的語言材料語料庫是以電子計算機為載體承載語言知識的基礎資源真實語料需要經過加工分析和處理才能成為有用的資源。語料庫 corpus，複數corpora 指經科學取樣和加工的大規模電子文字庫。借助計算機分析工具，研究者可開展相關的語言理論及應用研究確定...

讀《統計自然語言處理》語料庫與知識詞彙庫

統計自然語言處理的主要需求包括計算機語料庫和軟體。基礎知識 1 計算機文字語料庫通常都比較大，處理大量的文字需要相當多的計算資源。在早期的處理中，這是限制語料庫運用的主要原因。統計自然語言處理方法不僅需要大量的空間來儲存語料，而且經常需要從語料中收集大量的統計資訊，所以要求計算機有比較快的訪問速...

自然語言處理庫NLTK資訊彙總

nltk是構建python程式以使用人類語言資料的領先平台。它為50多種語料庫和詞彙資源如wordnet 提供了易於使用的介面，還提供了一套用於分類，標記化，詞幹化，標記，解析和語義推理的文字處理庫。nltk是python上著名的然語處理庫帶語料庫，具有詞性分類庫帶分類，分詞，等等功能。n...

自然語言處理 nltk 語料庫

自然語言處理中語料庫的理解

讀《統計自然語言處理》 語料庫與知識詞彙庫

自然語言處理庫NLTK資訊彙總

相關推薦

讀《統計自然語言處理》語料庫與知識詞彙庫