語義歧義消除

2021-08-08 16:07:09 字數 1572 閱讀 6530

語義消歧可以看作分類問題。乙個詞w有k個含義,對w消歧 就是確定w在特定句子中究竟使用了哪乙個含義,即把w分到k類中的乙個。分類的依據則是和w鄰近的詞,即w的上下文c。

歧義可以分為兩類:一類是詞的語義有多種,如「bank」,可以是銀行,也可以是河岸;另一類是詞本身的詞性也是多樣的,如predicate,既能作為名字,也能作為動詞。對於前者,

可能需要與w相隔較遠的其他詞參與消歧,而對於後者,往往通過鄰近的詞彙就能確定w的詞性了。

常用的消歧方法:

一、有監督消歧

1.  貝葉斯分類

s = arg max  p(sk|c),  sk 是w可能包含的語義,c是歧義詞的上下文,而s是 使該概率最大的語義,即消歧後確定的語義。

2. 基於資訊理論的方法。以w包含2個語義為例,基本思想是最大化 互資訊 i(p,q),p是w的語義集,q是w的指示器取值集(指示器 即能區分w不同語義的關鍵鄰近詞)。

例:法語「 prendre」的含義是take或make,其指示器可以是 decision,note,example,measure。p劃分為 p1 = 和p2=,

q分為q1 = 和q2 = ,  如果w的指示器為note,出現在q1中,那麼w對應的語義應該對應地出現在p1中,即take。

在這裡,p和q的集合劃分的原則是最大化 i(p,q)。

該方法感覺和貝葉斯分類本質上類似,還是基於鄰近詞,根據概率判決,只是具體的公式不一樣。

二、基於詞典的消歧(本質上也是無監督消歧的一種

1.  基於語義定義的消歧。如果詞典中對w的 第i種定義 包含 詞彙ei,那麼如果在乙個包含w的句子中,同時也出現了ei,那麼就認為 在該句子中 w的語義應該取詞典中的第i 

種定義。

2.  基於類義辭典的消歧。 詞的每個語義 都定義其對應的主題或範疇(如「網球」對應的主題是「運動」),多個語義即對應了多個主題。如果w的上下文c中的詞彙包含多個主                   題,則取其頻率最高的主題,作為w的主題,確定了w的主題後,也就能確定其對應的語義。

3.  基於雙語對比的消歧。這種方法比較有創意,即把一種語言作為另一種語言的定義。例如,為了確定「interest」在英文句子a中的含義,可以利用句子a的中文表達,因為 

interest的不同語義在中文的表達是不同的。如果句子a對應中文包含「存款利率」,那麼「interest」在句子a的語義就是「利率」。如果句子a的對應中文是「我對英語沒有興趣」,

那麼其語義就是「興趣」。

三、無監督消歧

主要是使用em演算法 對w的上下文c進行無監督地聚類,也就是對 w的語義進行了分類。(當然,該分類的結果不見得就是和詞典中對該詞的定義分類是匹配的)。

總結

馬克思說:」人是社會關係的總和」,那麼詞的含義就是其 上下文關係的體現,所有消歧方法都必須依賴於詞的上下文資訊,不同方法的區別在於對上下文資訊的挖掘程度和方式。也可以看出,消歧成功與否的關鍵在於能否充分挖掘和利用上下文資訊,上下文可以既可以在廣度上擴充套件:從鄰近詞彙 ,到跨句,甚至可以到段落,也可以在深度上擴充套件:從字面語義,到高層的抽象概念。

中文分詞消除歧義簡單思想

在這個程式裡我用了乙個簡單的消除歧義的思想,就是在自己分詞時候得到了得到正向最大匹配的各個詞的時候,從左到右判斷得到的每個詞,怎麼判斷呢?我們把這個詞最後面的那個字與他後面的詞的第乙個字組合起來和詞庫比較,若有這個組合詞的話,我們就把這個組合詞與他的前後母體分開,成為單獨的詞 例子 電子產業和服裝業...

語義分割後處理 消除雜波

目錄 1.簡介 3.需要匯入的包 4.語義分割的結果會產生一些誤檢,這些誤檢的目標一般都是小目標,因此使用remove small objects 函式,將小目標給濾除掉。cv2.thresh binary 大於閾值,返回最大值 小於等於閾值,返回0 cv2.thresh binary inv 大於...

C語言的歧義

前兩天,neo寫了一篇 語言的歧義 其使用c語言討論了一些語言的歧義。大家應該也順便了解了一下c語言中的很多不可思異的東西,可能也是你從未注意到的東西。是的,c語言並不簡單,讓我們來看看下面這些示例 為什麼下面的 會返回0?這題應該很簡單吧 int x return x 1 x 本題主要是關於c c...