自然語言處理之 命名實體識別 1

2021-10-01 23:14:54 字數 934 閱讀 2070

命名實體識別是定位文件中的專有名詞或命名實體的過程,而且這些不同的命名實體被分成了不同的類別,如:人名,地名,機構名等。

可以使用斯坦福標註器來實現ner。

如果命名實體存在,就用ne標記來標註。

import nltk

nltk.download('maxent_ne_chunker')

sentences1 = nltk.corpus.treebank.tagged_sents()[17]

print(nltk.ne_chunk(sentences1, binary=true))

sentences2 = nltk.corpus.treebank.tagged_sents()[7]

print(nltk.ne_chunk(sentences2, binary=true))

print(nltk.ne_chunk(sentences2))

可以進行命名實體識別另乙個例子:

import nltk

nltk.download('conll2002')

from nltk.corpus import conll2002

for documents in conll2002.chunked_sents('ned.train')[25]:

print(documents)

另乙個例子進行命名實體識別,並將不同的命名實體劃分為把不同的命名實體類別。

import nltk

sentence = "i went to greece to meet john";

tok=nltk.word_tokenize(sentence)

pos_tag=nltk.pos_tag(tok)

print(nltk.ne_chunk(pos_tag))

自然語言基礎之分詞 標註 命名實體識別

一 hmm隱馬爾可夫模型分詞 詞性標註 命名實體識別 hmm是用來描述隱含未知引數的統計模型,經典的例子 乙個東京的朋友每天根據天氣決定當天的活動中的一種,我每天只能在twitter上看到她發的 今前天去公園散步了 昨天購物 今天清理房間了!那麼我可以根據她發的推特推斷東京這三天的天氣。在這個例子裡...

1 自然語言處理描述

資訊時代最重要的技術之一,理解複雜的語言表達方式也是人工智慧重要的一部分。自然語言處理應用無處不再,因為人們基本上所有的事情都是通過語言進行交流。常見的應用 在自然語言處理技術背後有大量的基礎技術任務和機器學習模型。當前,深度學習方法在很多不同的自然語言處理應用中取得了非常好的效能。在深度學習技術中...

自然語言處理之 SentencePiece分詞

sentencepiece是乙個google開源的自然語言處理工具包。網上是這麼描述它的 資料驅動 跨語言 高效能 輕量級 面向神經網路文字生成系統的無監督文字詞條化工具。那麼它究竟是幹什麼的呢?先舉個例子 假設在資料探勘時,有一列特徵t是文字描述,我們需要將其轉成列舉型,或者多個布林型代入模型,即...