2.4 語料庫的規模
既然你已經知道想要尋找何種型別的資料以及如何表現它,那麼你還需要決定實際需要收集與標註多少資料。如果你計畫使用乙個已有的語料庫,那麼語料庫的總規模已經確定,但是你可能仍然需要決定對語料庫的多少內容進行標註。
一般而言,無論標註目標是什麼,收集與標註的資料越多,就離達成目標越近。然而,在多數情況下,在討論語言標註任務時「越大越好」並不是切實可行的——時間、金錢、有限的資源以及精力都可能是限制你和你的標註人員能完成標註規模的因素。
注意: 如果這是你收集資料工作的第一輪,那麼最重要的事情是產生乙個包含與任務有關的所有現象例子的樣本語料庫。
也就是說,我們建議在第一次進行文件標註時從較小的規模開始——首先為標註人員選擇少量的文件,看看標註任務與標註指南是否合適(標註指南將在第6章中討論)。一旦你已經解決了一些問題,就可以返回到前面的步驟中並在需要時增加語料庫。
不幸的是,我們無法給你乙個具體的數字來決定語料庫需要達到多大規模才能取得好的結果,這種魔幻數字並不存在。語料庫規模的大小很大程度上取決於標註任務的複雜程度,但是即使有辦法量化標註方案中的「複雜度」也不能解決所有問題。然而,已在使用中的語料庫可以為我們提供一些經驗法則幫助判斷應該計畫構建多大的語
料庫。2.4.1 現有語料庫
表2-2:依據估計的大小排序的現有語料庫
語料庫 估計的大小
clueweb09 1 040 809 705個網頁
英國國家語料庫 1億個單詞
美國國家語料庫 2200萬個單詞(截至本書寫作時)
tempeval2(semeval2010的一部分) 每種語言資料集包含1萬~6萬個詞例
賓州話語樹庫 100萬個單詞
i2b2 2008競賽——吸菸狀態 502份醫院**報告
timebank 1.2 183份文件;61 000個詞例
情感歧義形容詞消歧(中文資料,semeval 2010 4 000個句子
的乙個部分)
你可能已注意到,後面3個語料庫的規模比其他語料庫小——這是因為這3個語料庫主要用於自然語言處理競賽中,競賽的內容是在有限時間內執行某個自然語言處理機器學習任務。這個限制也包括用於構建訓練和測試資料集的時間。為保證標註工作的可行性,語料庫的規模就不可能太大,而且有時候標註方案也可能會簡化。但是,這些競賽的結果常常沒有將更多時間用於構建規模更大、標註質量更高語料庫情況下的結果好。
2.4.2 語料庫內部的分布
前面我們曾經提到過,為了增加資訊量應將多種型別的資料收入語料庫中。這裡我們將展示一些例子來說明已有語料庫中不同**資料的分布。
圖2-3:bnc中的文字型別的分布
自然地,在評價乙個語料庫的平衡性時還可以考慮其他的分布角度。bnc還提供了基於出版日期、領域、媒介以及包括作者資訊和預期聽眾在內的子類分析的語料庫分析(如圖2-4所示)。
圖2-4:bnc中的出版日期
對於語料庫來說,不太可能考慮覆蓋所有這些可能型別的代表樣本。換言之,使可能帶來差異的影響降至最低是乙個好的策略,尤其是當你剛剛開始從事標註工作時。比如,確定所有文字均來自同一時期,或者核實所有的說話者均是你要求他們所說語言的母語者都是你可能需要考慮的事情,即使你最終決定在你的語料庫中不包括這種差異。
總結本章討論了建立好的目標定義時需要考慮的關鍵因素,以及目標怎樣影響資料集。具體地,我們考察了以下要點:
對標註任務的目標給出清晰的定義有助於使你在開始建立任務定義和撰寫標註指南時行駛在正確的軌道上。
在標註任務中往往需要在資訊量與正確性之間尋求平衡——請注意,一定不能為了迎合某一方面而過多地犧牲另一方面。
清晰地定義標註任務的範圍將使語料庫**的選擇變得更加容易,在以後還將使確定標籤集和撰寫標註指南變得更加容易。
進行一些背景研究能幫助你在進行自己的標註任務時避免重複已有的工作。
利用現有語料庫作為資料集會使其他必要的分析變得更加簡單。
如果現有語料庫不能適應你的需要,那麼可以自行構建乙個新的語料庫,但請仔細考慮到底需要什麼樣的資料以及哪些因素可能使任務變得複雜?
現有的各種工具和程式語言能幫助你從網際網路上收集資料。
你打算呈現給標註人員的資訊將是影響標註的乙個重要因素,尤其是在那些比較依賴標註人員的主觀意見或者是對文字的主觀解讀而非客觀事實的任務中。
面向機器學習的自然語言標註3 3 語言模型
3.3 語言模型 n元語法的好處是什麼呢?多年來自然語言處理已經利用n元語法開發了 序列行為的統計語言模型 language model 序列行為涉及在包含多個x的序列中識別下乙個x。例如,語音識別 機器翻譯等。在給定前乙個元素的前提下語言模型 序列中的下乙個元素。等價於 請注意,這裡涉及兩個聯合概...
自然語言處理(1) 詞彙標註
如何進行詞彙標註呢?首先進行資料預處理,例如如果給定的是句子,先要對句子進行分割 最簡單的標註器,可以給定詞彙使用得最頻繁的詞性作為標註器中該詞彙的詞性,但是由於詞彙存在二義性,使得這種標註準確度受限,通過上下文語境,可以在一定程度上解決這個問題,可以採用n gram標註器,此外,brill標註器具...
自然語言處理之詞性標註
詞性標註作為nlp領域的一項基本任務,其與分詞任務同等重要,是很多任務的基礎,比如句法分析,命名實體識別等。命名實體識別在一定程度上也屬於標註任務,不過,難度相比一般的詞性標註而言,上公升了不少。對於詞性標註而言,不論是中文還是英文,其難點在於對於不同的語境,詞性的多變化 另一方面,隨著社會的發展,...