BiLSTM介紹及中文命名實體識別應用

2021-09-07 02:56:43 字數 1821 閱讀 7903

lstm:全稱long short-term memory,是rnn(recurrent neural network)的一種。lstm由於其設計的特點,非常適合用於對時序資料的建模,如文字資料。

bilstm:bi-directional long short-term memory的縮寫,是由前向lstm與後向lstm組合而成。

可以看出其很適合做上下有關係的序列標註任務,因此在nlp中常被用來建模上下文資訊。

我們可以簡單理解為雙向lstm是lstm的改進版,lstm是rnn的改進版。

(這裡簡單說一下rnn,熟悉的可以直接跳過。rnn的意思是,為了**最後的結果,我先用第乙個詞**,當然,只用第乙個**的**結果肯定不精確,我把這個結果作為特徵,跟第二詞一起,來**結果;接著,我用這個新的**結果結合第三詞,來作新的**;然後重複這個過程;直到最後乙個詞。這樣,如果輸入有n個詞,那麼我們事實上對結果作了n次**,給出了n個**序列。整個過程中,模型共享一組引數。因此,rnn降低了模型的引數數目,防止了過擬合,同時,它生來就是為處理序列問題而設計的,因此,特別適合處理序列問題。lstm對rnn做了改進,使得其能夠捕捉更長距離的資訊。但是不管是lstm還是rnn,都有乙個問題,它是從左往右推進的,因此後面的詞會比前面的詞更重要。因此出現了雙向lstm,它從左到右做一次lstm,然後從右到左做一次lstm,然後把兩次結果組合起來。)

如果我們想要句子的表示,可以在詞的表示基礎上組合成句子的表示,那麼我們可以採用相加的方法,即將所有詞的表示進行加和,或者取平均等方法。但是這些方法很大的問題是沒有考慮到詞語在句子中前後順序。而使用lstm模型可以更好的捕捉到較長距離的依賴關係。因為lstm通過訓練過程可以學到記憶哪些資訊和遺忘哪些資訊。但是利用lstm對句子進行建模也存在乙個問題:無法編碼從後到前的資訊。而通過bilstm可以更好的捕捉雙向的語義依賴。

詳細原理可看:

bilstm-crf模型簡單介紹

所有 rnn 都具有一種重複神經網路單元的鏈式形式。在標準的rnn中,這個重複的單元只有乙個非常簡單的結構,例如乙個tanh層。

lstm 同樣是這樣的結構,但是重複的單元擁有乙個不同的結構。不同於普通rnn單元,這裡是有四個,以一種非常特殊的方式進行互動。

圖4:lstm結構

lstm通過三個門結構(輸入門,遺忘門,輸出門),選擇性地遺忘部分歷史資訊,加入部分當前輸入資訊,最終整合到當前狀態並產生輸出狀態。

圖5:lstm各個門控結構

應用於ner中的bilstm-crf模型主要由embedding層(主要有詞向量,字向量以及一些額外特徵),雙向lstm層,以及最後的crf層構成。實驗結果表明bilstm-crf已經達到或者超過了基於豐富特徵的crf模型,成為目前基於深度學習的ner方法中的最主流模型。在特徵方面,該模型繼承了深度學習方法的優勢,無需特徵工程,使用詞向量以及字元向量就可以達到很好的效果,如果有高質量的詞典特徵,能夠進一步獲得提高。

命名實體 中文命名實體識別簡介

一切具有特定屬性集合的物體都可以稱為實體。一般包括三大類 實體類 時間類 數字類 七小類 人名 機構名 地名 時間 日期 貨幣和百分比 1 確定實體的邊界,即確定哪些詞屬於實體。2 確定實體的類別,即確定實體屬於人名或者機構名等。1 各類命名實體沒有嚴格的命名規範 2 中文命名實體沒有類似英文明確的...

中文命名實體識別

命名實體識別是nlp裡一項很基礎的任務,就是從文字中識別出命名性指稱項,為關係抽取等任務做鋪墊。狹義上,是識別出人名 地名和組織機構名這三類命名實體 時間 貨幣名稱等構成規律明顯的實體型別可以用正則等方式識別 當然,在特定領域中,會相應地定義領域內的各種實體型別。1.中文文字不像英文有空格作為詞語的...

中文命名實體識別NER詳解

中文命名實體識別是在自然語言處理領域有著具足輕重的地位,因為在很多應用中,我們一定要提取出我們話術中的實體,所以說命名實體識別是非常重要的。一般來說,現在網上有很多ner的開源庫,我們通過呼叫api就可以進行人名 地名 時間 機構名等實體的識別,效果也非常不錯。但是這僅僅是限於某一些領域的命名實體識...