詞彙獲取的一般目的,通過考察大型文字語料庫中詞彙出現的模式,設計一種演算法和統計技術來填補現有電子詞典的不足。在自然語言中我們感興趣的大部分詞的特性並沒有被收錄到電子詞典中,自然語言的新詞和舊詞新用法總是層出不窮,即使我們編輯了現有所有存在的詞彙,過幾天也會有新的出現,所以詞彙獲取在自然語言中則顯得十分重要。本章包含4個部分:動詞子範疇,附著歧義,選擇傾向,詞彙之間的語義相似性。可以看到之前談到的詞彙搭配和語義消歧都是這個部分的一些特例。
這裡講到了一些常用的機器學習中的指標,即精確率(precision),召回率(recall)等概念。這裡簡單提一下吧,對乙個目標做出決策,我們根據對錯的劃分可以得到乙個2x2的聯立矩陣,如下圖。以及下面的圖表示。這裡解釋一下,其實這些引數有很多演算法可以得出不同的指標,重點在於我們考慮的分類問題中,你關注的是什麼,比如這裡我們有大量的文字,錯誤的分到錯誤的概率就很大,所以我們更考慮召回率和準確率,對於正確率(accuracy)來說,我們的tn太大,所以對其他我們感興趣的資料變得不敏感了。因此這裡我們考慮找回和準確率。
容易想到,對於上圖,很多時候準確率和召回率是相互制約的,你更傾向於把資料判對,召回率就可能高一點,準確率就可能低一點。所以我們做出roc曲線,來幫助我們進行合理的選擇,有時候也用乙個衡量值f對兩者做權重處理,如下。
這裡並不是重點,有關這些衡量標準有很多機器學習的課程中都有介紹,最後貼一張圖來給大家感性的感覺一下這幾個指針對文字處理分類的影響大小。
這裡大致描述是這樣,每個動詞實際上是有一些固定搭配的,比如tell,think後面常帶從句,play等就沒有,那麼我們判斷的時候如果能拿到這些資訊,我們就可以比較好去做決策。然後書中提供了一種辦法,通過正則給出框架,然後假設檢驗法來做,具體細節沒有看懂。這裡就這樣過吧!
附著歧義是自然語言分析過程中普遍存在的乙個過程,這裡也只做簡單介紹,當我們分析乙個句子的句法時,經常會遇到這樣的問題,即乙個短語附著在幾個地方都是可以的,尤其是賓語名詞後面的介詞短語。
eg:the children ate the cake with a spoon
這裡兩種意思,一種是孩子吃乙個插著spoon的蛋糕,一種是用勺子吃蛋糕。我們需要去區分哪些組合更合理。其實這個地方和上面動詞子範疇有相似之處,都是研究句法中詞語的相關關係,這個句法分析在後面概率上下文無關分析中也會提到,那裡我們用概率去判斷哪個最合適。這裡我們可能仍然是去找一些詞語的匹配來確認哪個更優。其實有個簡單的辦法就是去統計詞頻,eat with spoon 應該比cake with spoon 出現的要多,所以簡單的統計效果時常也是不錯的。這裡我介紹僅僅希望知道句法分析中可以依賴這些特殊的關係更好的幫助我們去分析構建語法樹,僅此而已,具體演算法忽略。給大家看一下就差不多了。
一種啟發式演算法,根據幾個頻率來算λ,根據λ的值來確認附著在什麼上面,據說可以達到80%準確率。
說到這裡,個人有個想法,我們對於這些判斷的時候,實際是並沒有這多語法相關的知識的,比如我們只看名詞動詞不看句子其他部分,也許我們也不能做出合理的區分,那麼這個時候需要嘗試用人去做乙個演算法理論上界,這樣就可以發現,哪些是我們不可忽略的,哪些是我們可以忽略的,有可能我們的思路很簡單,有可能就是詞頻呢,不過這裡還夾雜了一些其他的內容,就是人的常識,我們需要更細化一下這個常識,就是主題關聯傾向,比如吃後面多半是食物,這是人很容易聯想的,但是機器演算法統計可能不太能統計出來。
由於選擇傾向和語義相似性方法上都偏啟發式,所以這裡我再講述。
統計自然語言處理 自然語言處理是什麼?
自然語言是指中文 英語 西班牙語 法語 德語等等語言,作為人們日常使用的其他語言,它們對人類的交流有著重要作用。自然語言是隨著人類社會的發展而自然產生的語言,而不是由人類所特意創造的語言。自然語言是人們日常學習生活的重要工具和媒介,如果人類失去交流的能力,文明就失去了意義。總的來說,自然語言就是指人...
自然語言處理(1) 詞彙標註
如何進行詞彙標註呢?首先進行資料預處理,例如如果給定的是句子,先要對句子進行分割 最簡單的標註器,可以給定詞彙使用得最頻繁的詞性作為標註器中該詞彙的詞性,但是由於詞彙存在二義性,使得這種標註準確度受限,通過上下文語境,可以在一定程度上解決這個問題,可以採用n gram標註器,此外,brill標註器具...
統計自然語言處理(詞法)
語法可分為詞法和句法 詞法 句法 現代漢語句法的主要內容包括,句子的基本結構 句子的類別 句子的表達形式三個方面。句子的基本結構也叫基本成分,包括主語 謂語 賓語 定語 狀語 補語六種成分。其中的主語 謂語 賓語是主要成分,定語 狀語 補語是附加修飾成分。而主語和謂語是句子的必要成分,缺一則不能成為...