淺層語義標註是行之有效的語言分析方法,基於語義角色的淺層分析方法可以描述句子中語義角色之間的關係,是語義分析的重要方法,也是篇章分析的基礎,本節介紹基於機器學習的語義角色標註方法
舉個栗子:「我昨天吃了一塊肉」,按照常規理解「我吃肉」應該是句子的核心,但是對於機器來說「我吃肉」實際上已經丟失了非常多的重要資訊,沒有了時間,沒有了數量。為了讓機器記錄並提取出這些重要資訊,句子的核心並不是「我吃肉」,而是以謂詞「吃」為核心的全部資訊。
「吃」是謂詞,「我」是施事者,「肉」是受事者,「昨天」是事情發生的時間,「一塊」是數量。語義角色標註就是要分析出這一些角色資訊,從而可以讓計算機提取出重要的結構化資訊,來「理解」語言的含義。
語義角色標註需要依賴句法分析的結果進行,因為句法分析包括短語結構分析、淺層句法分析、依存關係分析,所以語義角色標註也分為:基於短語結構樹的語義角色標註方法、基於淺層句法分析結果的語義角色標註方法、基於依存句法分析結果的語義角色標註方法。但無論哪種方法,過程都是:
句法分析->候選論元剪除->論元識別->論元標註->語義角色標註結果
其中論元剪除就是在較多候選項中去掉肯定不是論元的部分
其中論元識別是乙個二值分類問題,即:是論元和不是論元
其中論元標註是乙個多值分類問題
下面分別針對三種方法分別說明這幾個過程的具體方法
短語結構樹是這樣的結構:
s——|
| |
nn vp
我 |——|
vt nn
吃 肉
短語結構樹裡面已經表達了一種結構關係,因此語義角色標註的過程就是依賴於這個結構關係來設計的一種複雜策略,策略的內容隨著語言結構的複雜而複雜化,因此我們舉幾個簡單的策略來說明。
首先我們分析論元剪除的策略:
因為語義角色是以謂詞為中心的,因此在短語結構樹中我們也以謂詞所在的節點為中心,先平行分析,比如這裡的「吃」是謂詞,和他並列的是「肉」,明顯「肉」是受事者,那麼設計什麼樣的策略能使得它成為候選論元呢?我們知道如果「肉」存在乙個短語結構的話,那麼一定會多處乙個樹分支,那麼「肉」和「吃」一定不會在樹的同一層,因此我們設計這樣的策略來保證「肉」被選為候選論元:如果當前節點的兄弟節點和當前節點不是句法結構的並列關係,那麼將它作為候選論元。當然還有其他策略不需要記得很清楚,現用現查就行了,但它的精髓就是基於短語結構樹的結構特點來設計策略的。
然後就是論元識別過程了。論元識別是乙個二值分類問題,因此一定是基於標註的語料庫做機器學習的,機器學習的二值分類方法都是固定的,唯一的區別就是特徵的設計,這裡面一般設計如下特徵效果比較好:謂詞本身、短語結構樹路徑、短語型別、論元在謂詞的位置、謂詞語態、論元中心詞、從屬類別、論元第乙個詞和最後乙個詞、組合特徵。
論元識別之後就是論元標註過程了。這又是乙個利用機器學習的多值分類器進行的,具體方法不再贅述。
這兩種語義角色標註方法和基於短語結構樹的語義角色標註方法的主要區別在於論元剪除的過程,原因就是他們基於的句法結構不同。
基於依存句法分析結果的語義角色標註方法會基於依存句法直接提取出謂詞-論元關係,這和依存關係的表述是很接近的,因此剪除策略的設計也就比較簡單:以謂詞作為當前節點,當前節點所有子節點都是候選論元,將當前節點的父節點作為當前節點重複以上過程直至到根節點為止。
基於依存句法分析結果的語義角色標註方法中的論元識別演算法的特徵設計也稍有不同,多了有關父子節點的一些特徵。
有了以上幾種語義角色標註方法一定會各有優缺點,因此就有人想到了多種方法相融合的方法,融合的方式可以是:加權求和、插值……,最終效果肯定是更好,就不多說了。
語義角色標註當前還是不是非常有效,原因有諸多方面,比如:依賴於句法分析的準確性、領域適應能力差。因此不斷有新方法來解決這些問題,比如說可以利用雙語平行語料來彌補準確性的問題,中文不行英文來,英文不行法語來,反正多多益善,這確實有助於改進效果,但是成本提高了許多。語義角色標註還有一段相當長的路要走,希望學術界研究能不斷開花結果吧
pyltp的基本用法和語義角色標註
pyltp安裝 分詞 詞性標註 語義依存分析,戳這。利用pyltp做語義角色標註,直接上 from pyltp import segmentor,postagger,parser,namedentityrecognizer,sentencesplitter sementicrolelabeller ...
自然語言處理基礎技術之語義角色標註
今天是總結nlp基礎技術的最後一篇,後面開始工具實戰篇,我覺得實踐對新手小白入門是相當有幫助的 語義角色標註定義 以下以基於成分句法樹的語義角色標註為例,任務的解決思路是以句法樹的成分為單元,判斷其是否擔當給定謂詞的語義角色 conll會議2008 2009 年則對依存分析和語義角色標註聯合任務進行...
基於機器視覺的幾種標註方法
通過合適的標註工具獲得的訓練資料可以得到更準確的模型 2d框標註 bounding box 標註人員在物體周圍畫乙個框,一般用於物體分類 多邊形分割標註 一般用來標註不規則的物體。更準確,相比2d框標註多邊形分割標註在物體周圍留下的空白會更少 線標註 也稱道路標註,點標註 經常用於發現形狀變化,面部...