import nltk
from nltk import word_tokenize
s="i was watching tv"
print(nltk.pos_tag(word_tokenize(s)))
結果:
[('i', 'prp'), ('was', 'vbd'), ('watching', 'vbg'), ('tv', 'nn')]
**中先將文字進行表示化處理,再呼叫nltk庫中的pos_tag方法得到一組(詞形,詞性標籤),可以看到很好地將一句話進行了標註。
用pos語料庫可以進行很多靈活的操作,如找出文字中所有的名詞等:
import nltk
from nltk import word_tokenize
s="i was watching tv"
#print(nltk.pos_tag(word_tokenize(s)))
tagged=nltk.pos_tag(word_tokenize(s))
allnoun=[word for word ,pos in tagged if pos in ['nn','nnp']]
print (allnoun)
結果:
['tv']
如果要找動詞只需要改變pos的詞性為
NLTK基礎教程學習筆記(九)
不同的解析器型別 解析器通常需要對乙個用於表達一組語法規則的輸入字串繼續處理,然後構成乙個或者多個可用於構成某種語法概念的規則。語法是我們衡量乙個句子是否良好的乙份規範說明,而解析器則是乙個用於解讀語法的程式。該程式會通過搜尋各種不同的樹結構空間,找出給定句子的最佳樹結構,下面是一些解析器的運用細節...
NLTK基礎教程學習筆記(四)
標識化處理 機器所要理解的最小處理單位是單詞 分詞 標識化處理,是將原生字元創分割成一系列有意義的分詞。標識化就是將原生字串分割成一系列有意義的分詞。標識化處理的複雜性因具體nlp應用而異,目標語言本身的複雜性本身也會帶來相關的變化。在英語中,可以通過正規表示式簡單的單詞來選取純單詞和數字,但在中文...
NLTK基礎教程學習筆記(十)
依賴性文字解析 依賴性文字解析 dependency parsing 簡稱dp 是一種現代化的文字解析機制。dp的主要概念是將各個語法單元 單詞 用丁香鏈路串聯起來。這種鏈路稱為依賴關係 dependencies 在目前的文字解析社群中,有大量工作在進行。儘管短語結構式文字解析 phrase str...