在中文的自然語言處理種,句法分析是乙個比較重要的部分。
句法分析,英文為parsing,指對句子種的詞語語法功能進行分析。乙個完整的漢語句子,一般有主語、謂語、賓語,複雜一些的句子就會出現各種各樣的依存關係,包括補語、定語、狀語、並列、同位語、數量、介賓、連動、疑問連動、兼語、關聯、重複、標點、的字結構、地字結構、語氣、時態等。如果在中文語言處理過程中,我們可以準確無誤的對句子分析出這些依存關係,那麼我們可以比較準確的找到這個句子的核心詞。自然語言處理的初級目標就可以基本實現了。
在句法分析的過程,我們會經常遇到指代的問題。例如,
我畢業於**大學,我在這裡生活了四年。它帶給我很多的回憶。
這裡的「**大學」、「這裡」都是指乙個實體,屬於共指現象。「它「與」生活了四年「屬於指代關係。
中文自然語言處理的指代非常難處理。按照指向,可以分為回指和預指,其中預指是用於指代下文的關係。不管如何指向,」指代「和」共指「關係都需要對文字的情景進行分析,這涉及語料上下文的分析。一般意義上講,共指是可以脫離上下文存在,但為了更好的理解語義確不能脫離上下文,而指代是在乙個下的範圍內存在。它需要解決指代和共指是從**開始,到**結束。如果不能解決這個問題,將導致語句結構和語意不夠清晰,影響整個文章的依賴關係的分析,比如「等價關係」,「上下位關係」,「整體和部分關係」等。
近年來,共指消解(coreference resolution) 和指代消解(anaphora resolution)的研究受到了格外的關注,2000 年開始的ace(automatic content extraction) 評測會議中共指消解也是重要內容之一。中文的共指消解研究開始於二十世紀末。中文共指消解評測開始於2003 年ace 會議。
統計自然語言處理基礎學習筆記(1)
識別文字中的搭配 識別搭配有很多方法,書中介紹了基於頻率的搭配識別,基於含義和主詞搭配之間距離的識別,基於假設測試和互資訊的識別。1.基於頻率的識別 如果兩個詞在一起出現了很多次,那麼就是乙個證據說明它們有特殊的功能,可以預計到的是僅僅找到最頻繁出現的二元組結果並不理想,會出現很多由2個功能詞組合的...
統計自然語言處理 自然語言處理是什麼?
自然語言是指中文 英語 西班牙語 法語 德語等等語言,作為人們日常使用的其他語言,它們對人類的交流有著重要作用。自然語言是隨著人類社會的發展而自然產生的語言,而不是由人類所特意創造的語言。自然語言是人們日常學習生活的重要工具和媒介,如果人類失去交流的能力,文明就失去了意義。總的來說,自然語言就是指人...
自然語言處理基礎學習
自然語言的處理發展以來經歷了多個階段。初期的研究主要注重於自然語言的語法。80年代初期,計算機語言蓬勃發展,形式語言理論趨向成熟,這使得自然語言的處理也求助於形式語言。但由於形式語言語法和語義的分離性,以及自然語言的上下文有關性,導致不能得到廣泛的運用。擴種轉移網路atn是一種多功能自然語言的語法表...