將詞彙按它們的詞性(parts-of-speech , pos)分類以及相應的標註它們的過程被稱為詞性標註(part-of-speech tagging, pos tagging )或乾脆簡稱標註。詞性也稱為詞類或詞彙範疇。 用於特定任務的標記的集合被稱為乙個標記集。乙個詞性標註器(part-of-speech tagger 或 pos tagger)處理乙個詞序列,為每個詞附加乙個詞性標記。
text.similar() 方法為乙個詞 w 找出所有上下文 w1ww2,然後找出所有出現在相同上下文中的詞 w',即 w1w'w2,就是找到上下文一致的詞性和用法很大可能相同的詞
**參考nltktest173. taggertest
不過不得不多查詢相似詞的函式還是需要相當的遍歷的,需要的時間比較長,需要大量操作的需要注意這一點。
列印的即如果裡面有個none,這是為什麼呢?合理的解釋是text.similar('woman')其實得到了兩個,乙個是有內容的[man,day….question]還有乙個是[none],那又為什麼會得到
none呢?水平有限,只得先按下不表。
鍊錶的乙個點可以有幾個屬性,字典的乙個點指定的屬性只能是乙個。
pos =
這是詞袋模型的慣用方法,因為不需要關心語序,所以直接給各個詞計數就行了。
不是研究的重點,需要的話使用公開的方法即可。
一元標註器基於乙個簡單的統計演算法:對每個識別符號分配這個獨特的識別符號最有可能的標記。
乙個 n-gram 標註器挑選在給定的上下文中最有可能的標記。
#-*- coding: utf-8-*-
'''created on 2014-3-14
@author: litc
'''from __future__ import division
import nltk
import time
import datetime
from nltk.corpus import brown
from operator import itemgetter
class nltktest173:
def __init__(self):
print 'initing...'
def taggertest(self):
text1 = nltk.word_tokenize("and now for something completely different")
print nltk.pos_tag(text1)
starttime = datetime.datetime.now()
text2 = nltk.text(word.lower() for word in nltk.corpus.brown.words())
print text2.similar('woman')
endtime = datetime.datetime.now()
print '找相似詞用了%d秒' %(endtime - starttime).seconds
nt173=nltktest173()
nt173.taggertest()
r語言進行自然語言處理 開始進行自然語言處理
r語言進行自然語言處理 當今,大多數應用程式仍在處理來自結構化和半結構化源的資料的世界中工作。它們連線到sql資料庫以查詢資訊或顯示來自json或xml資料來源的資訊。許多應用程式仍避免從非結構化源 例如開放文字字段,富文字編輯器,資料庫clob 字元大物件 資料型別,社交 新聞流以及來自micro...
《tensorflowNLP》傳統自然語言處理方法
經典nlp的一般方法 傳統的特徵工程技術 1 詞袋 根據詞頻建立特徵表示。缺陷 沒有保留單詞順序,丟失上下文資訊。2 n gram 它將文字分解為由n個字母 單詞 組成的較小元素,字母級別表示的優點是在大型語料庫上詞彙量小得多 語言建模任務的經典方法 傳統方法的缺點 傳統nlp的預處理步驟迫使我們對...
《使用Python進行自然語言處理》學習筆記七
將詞彙按它們的詞性 parts of speech pos 分類以及相應的標註它們的過程被稱為詞性標註 part of speech tagging,pos tagging 或乾脆簡稱標註。詞性也稱為詞類或詞彙範疇。用於特定任務的標記的集合被稱為乙個標記集。乙個詞性標註器 part of speec...