序列標註 (1)序列標註基礎

2021-10-25 09:46:21 字數 1110 閱讀 6520

所謂序列標註:

就是有乙個線性序列:x = x_1 , x_2, x_3,......,x_n

給每乙個元素打上標籤:y = y_1, y_2, y_3,......, y_n

[b, m, e, s]

b: 代表開始字元

m:代表中間字元

e:代表結束字元

s:代表單字詞

例如:我們愛自然語言處理  

這句話所得到的的標註序列為:

besbmmmme

我們 --> be

愛  --> s

自然語言處理  --> bmmmme

首先分詞,然後對詞語打標籤

識別文字**現的實體,比如,位址,人名,機構等特殊實體

[ba, ma, ea, bo, mo, eo, bp, mp, ep, o]

ba:位址首字元

ma:位址中間字元

ea:位址尾字元

bo:機構首字元

mo:機構中間字元

eo:機構尾字元

bp:人名首字元

mp:人名中間字元

ep:人名尾字元

o:不是實體

對於一些有規律的實體,可以針對相對的規則,比如字首字尾或者其他規則,來抽取

利用統計學,來找出文獻中的一些隱含的規律

前兩者是一種專家系統的策略,後者需要大量的統計樣本

1.難以用規則概括任務中的所有細節;

2.序列元素與標籤之間關係的不確定性(例如:工作可以是動詞,也可以是名詞)

3.標籤與標籤之前存在一定的關聯

4.計算量大

5.資料要求高

隱馬爾科夫模型

(最好參看李航的統計學習方法來總結)

這裡需要後期補充學習,最大熵模型maxent,以及最大熵markov模型

相對於後兩種,crf這種現在最流行的就是bi-lstm+crf

以上三種方法,後期做乙個學習補充

一般工業界現在都是基於bi-lstm+crf,或加上cnn

nlp從入門到實踐.胡盼盼(比較適合於面試整理--自然語言處理面試)

大佬的部落格(1) 序列標註問題概述(介紹的中文分詞,命名實體識別以及crf和lstm(以及幾種baseline)在序列標註上的優劣)

序列標註 BiLSTM CRF模型

對於序列標註問題,目前bilstm crf模型是目前使用比較流行的方法。本文以neural architectures for named entity recognition為例,講解bilstm crf模型在命名實體識別任務上的應用,著重於crf層的分析。假設資料集有兩種實體型別 人物 pers...

序列模型實現詞性標註

今天我們來看看 nlp 中乙個很重要且基本的問題 pos。pos part of speech tagging,即詞性標註,這是一種序列標註問題,就是輸入乙個句子,輸出每個詞在這句話中的詞性是什麼。例如,我喜歡吃酸辣的熱狗 這句話中,我 和 熱狗 是名詞,喜歡 和 吃 是動詞,酸辣的 是個形容詞。詞...

序列標註中的幾種標籤方案

標籤方案中通常都使用一些簡短的英文本元 串 來編碼。標籤是打在token上的。對於英文,token可以是乙個單詞 e.g.awesome 也可以是乙個字元 e.g.a 對於中文,token可以是乙個詞語 分詞後的結果 也可以是單個漢字字元。為便於說明,以下都將token試作等同於字元。標籤列表如下 ...