讀《統計自然語言處理》語料庫與知識詞彙庫

統計自然語言處理的主要需求包括計算機、語料庫和軟體。

基礎知識：

1、計算機：文字語料庫通常都比較大，處理大量的文字需要相當多的計算資源。在早期的處理中，這是限制語料庫運用的主要原因。統計自然語言處理方法不僅需要大量的空間來儲存語料，而且經常需要從語料中收集大量的統計資訊，所以要求計算機有比較快的訪問速度。因此需要一台硬碟足夠大，記憶體足夠多的計算機。

2、語料庫：乙個語料庫時按照某種標準收集的特殊文字材料。在文字分類中，乙個系統的效能會由於時間關係極度惡化，因為某一時刻抽取出來用於訓練的樣本經過一年或者兩年後就失去了原本的代表性。語料庫是不是人們感興趣的典型樣本是這裡的主要問題。如果我們從乙個樣本中得出的結論同樣適用於一般物件，就可以說這個樣本是典型的。這裡還需要提到乙個平衡語料庫的概念。

3、軟體：真正需要的軟體就是簡單的文字編輯器和某種程式語言的編譯器或者直譯器。除此之外，還會可能經常用到其他工具軟體，例如在語料庫中進行搜尋的軟體。

語料庫包含一定篇目（語篇），每篇篇目包含一定量的詞彙。分類如下「：

語種：單語種語料庫，多語種語料庫；

記載**：單**語料庫，多**語料庫；

地域：國家語料庫，國際語料庫；

以語料庫代表性和平衡性為主要區分依據的：平衡語料庫，平行語料庫；平衡語料庫是按照事先確定好的某種重要標準，把每個子類的文字按照一定比例收集到語料庫。在統計自然語言處理中，通常把感興趣的某個領域的大量資料收集起來作為語料庫，不管這些資料是怎麼構造的。

平衡性好壞取決於語料庫中語料的使用度是否可以真實反映語言使用情況。平行型表現為語料選取的時間、物件、比例、文字數、文字長度等幾乎一致（一般用於機器翻譯）。

以語料庫用途為主要區分依據的：通用語料庫，專用語料庫；（二者是相對的）

以語料分布時間為主要區分依據的：共時語料庫，歷時語料庫；

按照索緒爾的觀點，共時研究是研究大樹的橫斷面所見的細胞和細胞關係，即研究乙個共時平面中的元素與元素的關係，例如中國五地語料庫（大陸、香港、澳門、台灣、新加坡）。

按照索緒爾的觀點，歷時研究是研究大樹的縱剖面所見的每個細胞和細胞關係的演變，即研究乙個歷時切面中元素與元素關係的演化。

以語料庫內容加工程度劃分的：生語料與標註語料庫；

生語料是指沒有經過任何加工處理的原始語料資料。

標註語料庫是指經過加工處理、標註了特定資訊的語料庫。標註是把某個分類**插入到乙個計算機檔案中，這種分類**通常並不是檔案的組成部分，但是通過這些分類**，我們可以了解檔案的結構或格式資訊。人類語言中的許多yuo使得文字自動處理相當困難，即使是低水平的自動處理也很困難。

1、低階格式問題：由於語料庫的**複雜，語料中可能存在無法處理的各種各樣的格式或內容，他們是沒有用處的，需要過濾掉。

2、標記化：什麼算是乙個詞

標記化是把輸入文字切分成詞次的單位，詞次可以是乙個詞，乙個數字或者是乙個標點符號。

3、詞法：詞幹化就是乙個去除詞綴只留詞幹的過程。從資訊檢索得來的結果並不需要應用到某乙個或者全部的統計自然語言處理應用中去，它甚至不需要應用於所有的資訊檢索，詞法分析也許在其他應用中更加有用。詞幹化對於資訊檢索系統中無相互影響的評估不起作用。

4、句子：句子分隔

資料標註：

標記文字結構可以有各種不同的方案。如何設計標註集是資料標註的難點問題，更精確的可以認為是選擇什麼特徵來設計標註集。乙個標註集同時依據分類目標特徵和**特徵來進行編碼。其中分類目標是告訴使用者乙個詞的語法類別的有用資訊，**特徵是對**上下文中其他詞語特性有用的特徵。

目前位置，最常用的也是被推薦最多的標註形式是sgml。而標註的目的是為了更好的分析文字的內容，文字一般都是進行語法標註，標註文字內容中語法的結構。比較出名的標註集有美國brown語料庫中適用的標註集，成為brown標註集，還有penn樹庫。

乙個語料庫具有代表性是指在改了語料庫上獲得的分析結果可以概括成為這種語言整體或其指定部分的特性；

假設已知「打」有buy（~醬油，~飯）和knit（~毛衣，~圍巾）兩個意思，那麼如何知道「打手套」中的「打」是什麼意思呢？可以通過計算「手套」和「飯」、「毛衣」等詞的語義距離的計算結果進行判定。

讀《統計自然語言處理》語料庫與知識詞彙庫

讀《統計自然語言處理》有筆記語料庫與知識詞彙庫

自然語言處理 nltk 語料庫

自然語言處理中語料庫的理解

讀《統計自然語言處理》 語料庫與知識詞彙庫

讀《統計自然語言處理》有筆記 語料庫與知識詞彙庫

自然語言處理 nltk 語料庫

自然語言處理中語料庫的理解

相關推薦

讀《統計自然語言處理》語料庫與知識詞彙庫

讀《統計自然語言處理》有筆記語料庫與知識詞彙庫