構造NLP標註集的幾個簡便方法 隨想

2021-07-30 01:21:39 字數 994 閱讀 1591



基於統計的nlp演算法或模型的效能關鍵在於語料庫,但帶標註的語料庫不容易獲得。這裡介紹幾個構造訓練集或測試集的簡便方法,在沒有足夠標註集的情況下可以採用。

1.詞義消歧

用固定字串替換多詞。如,用詞符串「8888」替換語料中出現的「屌絲」和「高富帥」,其中「8888」是歧義詞,其含義可能為「屌絲」或「高富帥」,以此類推構造其他詞彙,這樣就得到了乙個人工標註的歧義語料庫。該方法可用於構造訓練和測試集。

2.中文分詞

在沒有中文分詞語料的情況下,可以利用現成的英文語料,以句子為單位將單詞合併為字串,如:「a dog is barking」-->「adogisbarking」,這就得到了帶標註的分詞語料。可用於構造訓練集和測試集。

3.拼寫校正

在語料中人為加入錯誤。

4.詞性標註

可以把詞性標註看作乙個分類問題,詞w是分類器的輸入特徵,其標註c是分類器輸出的類別。給定乙個語料庫,把所有詞按一定規則劃分為n類,為了模擬詞性歧義,允許同乙個詞以一定的概率分布在多個類。可用於構造訓練集和測試集。其他標註任務也可用該方法。

5.未登入詞識別

這個比較簡單,用乙個字典中不存在的字串如「白富美」替換語料中的「郭美美」或「鳳姐」,就得到了未登入詞的標註集。

可以看出,以上方法的基本思想是:基於人工規則構造訓練集。而這裡的人工規則,是對語言現象和規律,或者是語法規則的模擬。這就意味著:1.用於構造標註集的人工規則,與真實的語言現象,規律或規則,是有差異的,同時也意味著語種無關;2.在上述方法得到的標註集上訓練的模型,實際上是在學習我們用於構造訓練集的人工規則。也就是說用以上方法訓練得到的模型並不能直接應用於真實語料。那麼是否上述方法是沒有意義的?當然不是,這裡的差異在於模型引數,而模型的選擇,訓練和應用,則是一樣的。

有沒有方法獲得盡量接近真實語言的規則?這實際上就是所有nlp任務,或以統計,或以規則的方法所追求或部分追求的目標。也就是說,一旦有能力以完全真實的規則構造訓練資料,那麼就不需要再構造訓練資料用於訓練模型了。構造人工資料,無論從哪方面看,本身也是個nlp任務。

構造NLP標註集的幾個簡便方法 隨想

基於統計的nlp演算法或模型的效能關鍵在於語料庫,但帶標註的語料庫不容易獲得。這裡介紹幾個構造訓練集或測試集的簡便方法,在沒有足夠標註集的情況下可以採用。1.詞義消歧 用固定字串替換多詞。如,用詞符串 8888 替換語料中出現的 屌絲 和 高富帥 其中 8888 是歧義詞,其含義可能為 屌絲 或 高...

synchronized this 的幾個簡單示例

一 當兩個併發執行緒訪問同乙個物件object中的這個synchronized this 同步 塊時,乙個時間內只能有乙個執行緒得到執行。另乙個執行緒必須等待當前執行緒執行完這個 塊以後才能執行該 塊。二 然而,當乙個執行緒訪問object的乙個synchronized this 同步 塊時,另乙個...

中文標準標註語料的標註中的幾個問題

想讓機器能夠跟人一些樣非常智慧型地處理自然語言,一直是我們的夢想。實現這個理想涉及到很多領域的技術,不管如何設計,自然語言處理 nlp 技術是必備的一環。而自然語言處理中,想要訓練乙個好的模型,語料是繞不過去的門檻。沒有語料,來的模型?而且語料標註規則是否統 一 自洽是訓練自動處理模型的關鍵。不管專...