想讓機器能夠跟人一些樣非常智慧型地處理自然語言,一直是我們的夢想。實現這個理想涉及到很多領域的技術,不管如何設計,自然語言處理(nlp)技術是必備的一環。
而自然語言處理中,想要訓練乙個好的模型,語料是繞不過去的門檻。沒有語料,**來的模型?而且語料標註規則是否統
一、自洽是訓練自動處理模型的關鍵。不管專案大小,擁有相當規模的語料就成了關鍵。
語料從何而來?尋求**商當然是最快最便捷的方法。然而**商的技術、標註管理水平決定了交付語料的質量。雖然代價和風險不小,但仍然很少有人願意花時間自己標註乙份語料。語料的標註涉及到很多問題。中文語料也相對更難一些。
中文標註與其他語言不同,中文詞彙間不存在明顯的間隔指示(類似語言還有很多種),由此產生了很多奇妙的語言現象。所謂『明句讀』就是指學習的時候需要明白如何分句,分詞。不同的切分方法也產生個各種型別的歧義。
如何做好中文語料的標註, 是乙個古老且成熟的話題。然而,隨著模型的逐漸發展和成熟,很多基礎的標註方法也還有很多優化空間。對於我們來講,所有的切分、實體識別、事件提取、等等或簡單或複雜的問題都可以轉換為標註問題。
乙個好的標註方法和平台可以讓中文標註更加高效。我們在標註平台的開發和使用過程中,遇到了很多問題,總結如下:
1,標註規範及標籤集的建設。
設計建造一套可以適用於本行業本領域的標籤難度很高。標籤間的自洽,標籤層級等問題,會涉及到標註成本,後期模型訓練模型訓練成本,識別效率等。
標籤設計粗放,標籤集小,標註難度較低,訓練效率高成本低;標籤集大,標註難度高,訓練效率低,標籤記憶成本高,誤標和主觀分類問題多。設計一套完美解決所有問題的標籤難度很高。
2,標註的準確性問題。
標註者(員)對中文標註目標的主觀判斷非常容易干擾結果。
雖然語言是建立在群體共識基礎上的社會現象,但不同的標註人員生活所在族群的文化特點,教育背景,行業知識,行為習慣及認知都會產生對語言的表達方式和理解方式的差異。
再加上其他的環境或者身體狀態干擾所產生的標註錯誤的影響(誤讀,誤寫)
3,標註的一致性問題。
相同的標註者,在不同的狀態下對同一標註任務也能呈現不同的標註結果。綜合各種不同的標註狀態,產生眾多的標註結果時,標註的一致性檢查就相當重要了。
標註的一致性還與標籤集的設計、標註規範相關,標註的一致性影響到語料的標註質量,也影響到識別模型的訓練。
一致性的預警和自動糾正是各個標註平台的關注重點之一。
4,輔助粗標模型的準確性問題。
利用粗標工具對語料進行預標註,然後人工檢查的方法是可以提高標註效率的方式之一。
自動標註的演算法和工具很多,根據不同的應用場景各有長短。
粗標模型輸出的結果如何評價,並標註高風險的標註區間是後期人工檢查的指引和關鍵。不同的平台都有自己的處理方法。
5,標註任務的眾包分配和標註結果評價問題。
在有限的時間內完成大規模的語料標註,首先要考慮的就是任務分配,任務同步,標註結果**和準確性和效率的評價,錯誤回溯機制。乙個好的協作平台,可以將任務無縫的分配給無數多個標註員,並能完成工作實**估,重分配,橫向對比等工作。
6,標註爭議問題。
用BRAT進行中文情感分析語料標註
1.背景 情感分析是nlp中的一大分支,無論在學術界還是工業界都有廣泛的研究,在semeval語義分析會議中有單獨的情感分析任務分支,其中最難的乙個任務叫做absa aspect based sentiment analysis,面向方面的情感分析。舉例來說,就是對以下句子,新版本英雄的 很不錯,但...
要素的標註
要素的標註標註有兩種方法,乙個是新增textelement到文件物件,另一種是基於要素的某個屬性進行標註,它需要載入資料支援。第一種方法在p8中可以看到。下面介紹後一種方法 public sub anno byval pgeofeatlyr as igeofeaturelayer,byval fie...
如何減少opencv標註中文的時間
眾所周之,用opencv畫圖,是不能直接在上標註中文的,如果要標註中文,需要用到pil庫。在用pil庫進行處理時,需要把讀入的轉成pil的image格式,處理完之後,又得把image格式轉化成array格式。在這兩個轉化的過程,其實是非常耗時的,它的耗時量與的畫素數量成正比。你可以看下面這個例子,就...