漢語自動分詞,主要面臨哪些困難?

2021-09-19 03:31:39 字數 3986 閱讀 7254

1).分詞規範的問題

(1)漢語詞的概念

漢語自動分詞的首要困難是詞的概念不清楚。書面漢語是字的序列,詞之間沒有間隔標記,使得詞的界定缺乏自然標準,而分詞結果是否正確需要有乙個通用、權威的分詞標準來衡量。分詞標準的問題實際上是漢語詞與語素、詞與片語的界定問題,這是漢語語法的乙個基本、長期的問題。它涉及到許多方面:

·核心詞表問題:分詞需要有乙個核心(通用、與領域無關的)詞表,凡在該詞表中的詞,分詞時就應該切分出來。對於哪些詞應當收進核心詞表,已提出各種收詞條件,但這些條件本身難以操作,目前尚無合理的可操作的理論和標準。

·詞的變形結構問題:漢語中的動詞和形容詞有些可以產生變形結構,如「打牌」、「開心」、「看見」、「相信」可能變形成「打打牌」、「開開心」、「看沒看見」、「相不相信」等。可以切分出「打打/牌」,但「開開/心」就不合理。「看/沒/看見」說得過去,「相/不/相信」就說不過去了。又如大量的離合詞「打架」、「睡覺」等可以合理地變形為「打了一場架」、「睡了乙個覺」。對這些變形結構的切分缺少可操作而又合理的規範。

·詞綴的問題:語素"者"在現代漢語中單用是沒有意義的,因此"作者"、「成功者」、「開發者"內部不能切開。依據這個標準,「作出了巨大個人財產和精神犧牲者」、「克服許多困難而最終獲得成功者」、「開發中國第乙個作業系統軟體者"也不能切開,但這樣複雜的結構與詞的定義相矛盾。又如職務名稱"教育局長」,語義上理解為"教育局之長」,切成"教育/局長"、「教育局/長」、"教育/局/長"或不予切分,都會有人提出異議。

·非詞語素問題:一些漢字在古代漢語中是詞,演變到現代漢語時成了非詞語素,例如「民」。現代的書面漢語並非純粹的"現代漢語",其中夾雜著不少文言成分,如「為民除害」、「以逸待勞」、"幫困濟窮"等等。探尋白話文中夾雜文言成分的規律,是中文資訊處理需要解決的一大問題。

(2)不同應用對詞的切分規範要求不同

漢語自動分詞規範必須支援各種不同目標的應用,但不同目標的應用對詞的要求是不同的,甚至是有矛盾的。

·以詞為單位的鍵盤輸入系統:為了提高輸入速度,一些互現頻率高的相互鄰接的幾個字也常作為輸入的單位,如:「這是」、「每一」、「再不」、「不多」、「不在」、「這就是」、「也就」等。

·校對系統:校對系統將含有易錯字的詞和片語作為詞單位,如許多人「作」、「做」分不清。計算機自動判別時,若把它們當作單字詞也不好區分,但在同前後文構成的詞或片語中往往可以有確定的選擇,故應把有關的詞和片語都收進詞庫,如「敢做」、「敢作敢為」、「叫做」、「做出」、「看作」、「做為"等。校對系統要求分詞單位較大。如把"勇斗」、「力擒」、"智取"等分別作為乙個分詞單位並劃歸及物動詞參與上下文檢查。「張老師」、「五分之三」、"北京中醫學院"也應分別作為分詞單位,並分別歸類作為人、數字、機構名,再參與上下文檢查。

·簡繁轉換系統:"幹"的繁體形式有「幹」和「幹」,它的簡繁轉換是非確定的。但在詞和片語的層面上,它的轉換常常是確定的。比如「幹部」、「幹事」、「乾淨」、「乾燥」等。為了提高簡繁轉換的正確率,簡繁轉換系統把這類詞或片語收進詞表。

·語音合成系統:語音合成系統收集多音字所組成的詞和片語作為分詞單位,如「補給」、「給水」,因為在這些詞或片語中,多音字"給"的音是確定的。

·檢索系統:檢索系統的詞庫注重術語和專名,並且一些檢索系統傾向於分詞單位較小化。比如,把"並行計算機"切成「並行/計算機」,「計算語言學"應切成「計算/語言學」,使得無論用"並行計算機"還是用"計算機」、「計算語言學」或是「語言學」檢索,都能查到。分詞單位的粒度大小需要考慮到查全率和查準率的矛盾。

2).分詞演算法的困難

要將漢語文字的字序列切分成詞的序列,即使確定了乙個合適的分詞標準,要實現這個標準也還存在演算法方面的困難。

(1)切分歧義

漢語文字中含有許多歧義切分字段,典型的歧義有交集型歧義(約佔全部歧義的85%以上)和組合型歧義。只有向分詞系統提供進一步的語法、語義知識才有可能作出正確的決策。排除歧義常常用詞頻、詞長、詞間關係等資訊,比如「真正在」中,「真」作為單字詞的頻率大大低於"在"作為單字詞的頻率,即"在"常常單獨使用而「真」作為單字詞使用的可能性較小,所以應切成"真正/在"。有時切分歧義發生在一小段文字中,但為了排除歧義,需要看較長的一段文字。如"學生會"既可能是乙個名詞,指一種學生組織,也可能是"學生/會",其中"會"為"可能"或"能夠"的意思。在「學生會主席」中只能是前者,在"學生會去"中只能是後者,在「學生會組織義演活動」中歧義仍然排除不了,則需要看更多的語境資訊。

(2)未登入詞識別

未登入詞即未包括在分詞詞表中但必須切分出來的詞,包括各類專名(人名、地名、企業字型大小、商標號等)和某些術語、縮略詞、新詞等等。「***發明愛爾膚護膚液"需要切分成"***/發明/愛爾膚/護膚液」,並需要識別出"***"是人名,「愛爾膚」是商標名,「護膚液"是術語名詞。專名中還包括外族、外國名的漢譯名,如"斯普林菲爾德是伊里諾州首府」,「丹增嘉措70多歲了」,其中的美國地名、藏族人名都需識別。未登入詞的識別對於各種漢語處理系統不僅有直接的實用意義,而且起到基礎性的作用。因為各種漢語處理系統都需要使用詞頻等資訊,如果自動分詞中對未登入詞識別不對,統計到的資訊就會有很大誤差。比如,乙個分詞系統若不做中外人名識別,分詞後進行詞頻統計,可能會發現"張"、「王」、「李」、「劉」、「爾」、「斯」的頻率比"卻"、「如」、"你"的頻率還要高,用這樣的統計結果做漢語處理,其效果肯定有問題。又比如校對系統,如果系統不具備生詞識別能力,就無法判斷句子中大部分詞的使用是否合理,也就不能檢查真正的錯誤所在。

(3)分詞與理解的先後

計算機無法像人在閱讀漢語文章時那樣邊理解邊分詞,而只能是先分詞後理解,因為計算機理解文字的前提是識別出詞、獲得詞的各項資訊。這就是邏輯上的兩難:分詞要以理解為前提,而理解又是以分詞為前提。由於計算機只能在對輸入文字尚無理解的條件下進行分詞,則任何分詞系統都不可能企求百分之百的切分正確率。

3、分詞系統的目標

漢語自動分詞系統達到怎樣的水平才能適應資訊處理的要求?我們認為可以從以下幾個方面來衡量,即準確、高效、通用及適用。

1).準確性

準確率是分詞系統效能的核心指標。現在有些分詞系統的準確率達到98%,似乎已經很高了,其實不然。若這種分詞系統被用來支援句法分析、漢-外機器翻譯系統,假定平均每句話有10個漢語詞,那麼10句話中會錯切2個詞,含有切分錯誤的2句就不可能被正確處理。因此僅僅由於分詞階段的準確度不夠,語言理解的準確率就會減少20%。可見,分詞系統的準確率應達到99.9%以上才能基本滿足上層使用的要求。

2).執行效率

分詞是各種漢語處理應用系統中共同的、基礎性的工作,這步工作消耗的時間應盡量少,應只佔上層處理所需時間的一小部分,並應使使用者沒有等待的感覺,在普遍使用的平台上大約每秒鐘處理1萬字或5千詞以上為宜。

3).通用性

隨著internet的普遍應用,中文平台的處理能力不能僅限於我國,僅限於字處理,僅限於日常應用領域。作為各種高層次中文處理的共同基礎,自動分詞系統必須具有很好的通用性。自動分詞系統應支援不同地區(包括我國的香港、台灣、澳門,以及新加坡和美洲、歐洲、澳洲的華語社群)的漢語處理;應能適應不同地區的不同用字、用詞,不同的語言風格,不同的專名構成方式(如港澳台地區一些婦女名前冠夫姓,外國人名地名的漢譯方式與我國人名地名很不一樣)等;支援不同的應用目標,包括各種輸入方式、簡繁轉換、語音合成、校對、翻譯、檢索、文摘等等;支援不同領域的應用,包括社會科學、自然科學和技術,以及日常交際、新聞、辦公等等;應當同現在的鍵盤輸入系統一樣成為中文平台的組成部分。為了做到足夠通用又不過分龐大,必須做到在詞表和處理功能、處理方式上能靈活組合裝卸,有充分可靠和方便的維護能力,有標準的開發介面。同時,系統還應該具有良好的可移植性,能夠方便地從乙個系統平台移植到另乙個系統平台上而無需很多的修改。當然,完全的通用性很難達到。

4).適用性

漢語自動分詞是手段而不是目的,任何分詞系統產生的結果都是為某個具體的應用服務的。好的分詞系統具有良好的適用性,可以方便地整合在各種各樣的漢語資訊處理系統中。

人工智慧、大資料、雲計算和物聯網的未來發展值得重視,均為前沿產業,多智時代專注於人工智慧和大資料的入門和科譜,在此為你推薦幾篇優質好文:

如何快速入門nlp自然語言處理概述

自然語言理解過程主要有哪些層次,各層次的功能是怎麼樣?

從語言學到深度學習nlp,一文概述自然語言處理

多智時代-人工智慧和大資料學習入門**|人工智慧、大資料、物聯網、雲計算的學習交流**

漢語自動分詞

呼叫 海量智慧型分詞 提供的動態鏈結庫,實現漢語自動分詞,並且搭建圖形介面用於操作和顯示。圖形介面使用mfc搭建,新建基於對話方塊的mfc應用程式,同時要將hlssplit.lib hlsegfunc.h hlpubdef.h拷貝至工程目錄下,將hlssplit.dll hlsplitword.da...

漢語自動分詞小結

中文分詞存在的問題是分詞規範 怎麼才算是乙個詞 和歧義切分 交集型歧義 結合成且為結合 成 結 合成。組合型歧義 他站 起 身 來。他明天 起身 去北京。以及未登入詞,如中文名準確率較高,外文譯名準確率很低,地名可以由詞表解決,組織機構名詞表可以解決部分。分詞方法總的分為基於詞表和基於統計和規則。正...

構建私有雲,主要面臨哪些挑戰?

預算。私有雲的構建成本可能比較高昂,所以你必須考慮清楚投資回報率的上限和下限。與公有雲相整合。構建了私有雲之後,如果你還需要公有雲服務的話,也可以轉向一種混合模式。這會牽涉到如何保障系統的安全,以及如何在公有雲和私有雲中核實你能夠執行的工作負載。規模。私有雲通常是不具備大規模公有雲提供商所提供的規模...