自然語言處理 nltk 語料庫

2021-09-29 02:06:25 字數 1466 閱讀 3278

語料庫可以從wordnet內建語料庫匯入,也可以從外界匯入

內建語料庫列表可以在nltk官網查詢

from nltk.corpus import reuters		#路透社語料庫
查詢語料庫內容,可以呼叫物件的fileids()函式, 該函式得到檔案及其相對路徑

files=reuters.fileids(

)print

(files)

進一步訪問具體內容,可以採用物件的words()函式

words=reuters.words(

''test/

14826

'')

該語料庫已經按照層次分為90個主題

cat=reuters.categories(

)print

(cat)

可以按照主題進行訪問

x=reuters.words(categories=

['bop'

,'cocoa'

])

from nltk.corpus import browm 

import nltk

print

(brown.catagories())

text=brown.words(catagories=

'fiction'

)

freqdist: 詞頻統計

fdist=nltk.freqdist(text)

print

(fdist[

'who'

])

屬性:

fdist.

max(

)fdist.most_common(10)

fdist.plot(cumulative=

true

)

找出同義詞集

from nltk.corpus import wordnet as wn

chair=

'chair'

chair_synsets=wn.synset(chair)

for synset in chair_synsets:

print

(synset,

':')

print

('definition:'

,synset.definition())

# 定義

print

('lemmas/synonomou:'

,synset.lemma_names())

#詞條print

('example:'

,synset.example(),

'\n'

)#例句

自然語言處理中語料庫的理解

語料庫中存放的是在語言實際使用中真實出現過的語言材料 語料庫是以電子計算機為載體承載語言知識的基礎資源 真實語料需要經過加工 分析和處理 才能成為有用的資源。語料庫 corpus,複數corpora 指經科學取樣和加工的大規模電子文字庫。借助計算機分析工具,研究者可開展相關的語言理論及應用研究 確定...

讀《統計自然語言處理》 語料庫與知識詞彙庫

統計自然語言處理的主要需求包括計算機 語料庫和軟體。基礎知識 1 計算機 文字語料庫通常都比較大,處理大量的文字需要相當多的計算資源。在早期的處理中,這是限制語料庫運用的主要原因。統計自然語言處理方法不僅需要大量的空間來儲存語料,而且經常需要從語料中收集大量的統計資訊,所以要求計算機有比較快的訪問速...

自然語言處理庫NLTK資訊彙總

nltk是構建python程式以使用人類語言資料的領先平台。它為50多種語料庫和詞彙資源 如wordnet 提供了易於使用的介面,還提供了一套用於分類,標記化,詞幹化,標記,解析和語義推理的文字處理庫。nltk是python上著名的 然語 處理庫 帶語料庫,具有詞性分類庫 帶分類,分詞,等等功能。n...