中國的文字博大精深,不同的標點符號,不同的斷句就代表著不同的意思。所以,曾經有一位google的科學家說:「如果可以做好中文搜尋引擎,那麼我們就不怕任何語種的搜尋引擎研究了。」
最早的中文分詞辦法是由北京航天航空大學的梁南元教授提出的,一種基於「查字典」的分詞辦法。例如這個句子:「著名導演張藝謀說國慶節晚上將安排十萬人到***聯歡。」
用 「查字典」 的分詞方法,我們要做的就是把整個句子讀一遍,然後把字典裡有的詞都單獨標示出來,當遇到複合詞的時候(例如北京大學),就找到最長的詞匹配。遇到不認識的字串就分割成單個文字。根據這樣的辦法,我們以上的文字可以切分為:
「著名 | 導演 | 張藝謀 | 說 | 國慶節 | 晚上 | 將 | 安排 | 十萬人 | 到 | *** | 聯歡」
目前,主流的分詞辦法有兩種,一種是基於統計模型的文書處理,另外一種是基於字串匹配的逆向最大匹配法。
基於統計模型的文書處理
從形式上看,詞是穩定的字的組合,因此在上下文中,相鄰的字同時出現的次數越多,就越有可能構成乙個詞。因此字與字相鄰共現的頻率或概率能夠較好的反映成詞的可信度。可以對語料中相鄰共現的各個字的組合的頻度進行統計,計算它們的互現資訊。定義兩個字的互現資訊,計算兩個漢字x、y的相鄰共現概率。互現資訊體現了漢字之間結合關係的緊密程度。當緊密程度高於某乙個閾值時,便可認為此字組可能構成了乙個詞。這種方法只需對語料中的字組頻度進行統計,不需要切分詞典,因而又叫做無詞典分詞法或統計取詞方法。但這種方法也有一定的侷限性,會經常抽出一些共現頻度高、但並不是詞的常用字組,例如「這一」、「之一」、「有的」、「我的」、「許多的」等,並且對常用詞的識別精度差,時空開銷大。實際應用的統計分詞系統都要使用一部基本的分詞詞典(常用詞詞典)進行串匹配分詞,同時使用統計方法識別一些新的詞,即將串頻統計和串匹配結合起來,既發揮匹配分詞切分速度快、效率高的特點,又利用了無詞典分詞結合上下文識別生詞、自動消除歧義的優點。
一般來說,我們在seo中使用最多的分詞辦法就是基於字串匹配的逆向最大匹配法。這個辦法其實很簡單。我們以乙個簡單的例子來說明。
「瑞星一直以質量和服務開拓安全市場」。
如果這個句子我們以「查字典」的辦法正向切分的話,就會切分成下面的句子。
「瑞/星/一直/以/質量/和服/務/開拓/安全/市場」
SEO的關鍵之中文分詞
中國的文字博大精深,不同的標點符號,不同的斷句就代表著不同的意思。所以,曾經有一位google的科學家說 如果可以做好中文搜尋引擎,那麼我們就不怕任何語種的搜尋引擎研究了。最早的中文分詞辦法是由北京航天航空大學的梁南元教授提出的,一種基於 查字典 的分詞辦法。例如這個句子 著名導演張藝謀說國慶節晚上...
維特比演算法之中文分詞
尋找上圖最短路徑 此專案需要的資料 綜合類中文詞庫.xlsx 包含了中文詞,當做詞典來用 以變數的方式提供了部分unigram概率word prob 舉個例子 給定詞典 我們 學習 人工 智慧型 人工智慧 未來 是 另外我們給定unigram概率 p 我們 0.25,p 學習 0.15,p 人工 0...
畢業研究進度之中文分詞
由於平時都要去實習實在抽不出時間去搞這個畢設的研究,所以趁著兩天週末的時間集中精力研讀中文分詞的相關文獻。中文分詞其實也是乙個被許多人做過的課題,並且網上可以隨便搜到不少開源的專案。好吧,經過一系列research,我在這裡總結下現在主流中文分詞的技術。首先我們要回答乙個問題,就是為什麼要進行中文分...