NLP資料標註

2021-10-24 10:08:12 字數 442 閱讀 8145

業界nlp任務中,給業務方提供的nlp原始資料打標籤本身就是任務最耗時間,最麻煩的一部分。

最常用的辦法還是用正則打標籤冷啟動加主動學習的辦法訓練模型。首先用正則打標籤的訓練集訓練初始模型,之後手工挑選模型標的不對的樣本,人工打標籤,扔回去再訓練迭代,依次反覆。規則和標籤一般需要業務來定義,做好對資料的標籤管理,後續才能做更深層系的分析工作。真正遇到大型,場景固定,且不涉及商業機密的nlp任務,比如某些客服對話系統,才會用到外包團隊,人工打標籤,製作訓練集。

正則和詞典之類的方法,只要規則問題不大,大部分情況下都有很高的準確率,但召回不足,需要模型來補召回。模型是具有泛化能力的,乙個正樣本過正則沒識別,過模型可能就有了,召回率就會提公升。專案剛啟動的時候,因為沒有資料,需要用正則產生一批資料讓模型訓練,這樣模型就具有了正則的能力,還會具備部分泛化的能力。後續不斷地新增資料,對**資料進行標註迭代模型,使得模型的泛化效果就會不斷提公升。

NLP標註工具Brat

文字標註 文字標註工具brat的使用 2019常用nlp標註工具簡單介紹 nlp標註工具 yedda 2016 python 可以在windows上裝 優點是安裝方便,程式很小,標註方便,如果要實現給同乙個實體加多個標籤,也可以實現。最大標籤數8,介面也還過的去。doccano 2019 可以在wi...

開源NLP文字標註工具CatchingFire

做過nlp相關工作內容的小夥伴應該都知道標註資料才是最花時間的部分,因此乙個好用的標註工具來提高標註效率尤為重要。調研了多個開源工具後,發現現有大多數標註工具都只是簡單的標註功能,並沒有利用模型智慧型輔助標註。因此閒暇之餘開發了標註工具catchingfire 因為標註工具雖然看起來不重要,但是在n...

2019常用NLP標註工具簡單介紹

yedda 2016 python 可以在windows上裝 優點是安裝方便,程式很小,標註方便,如果要實現給同乙個實體加多個標籤,也可以實現。最大標籤數8,介面也還過的去。doccano 2019 可以在windows上裝 支援命名實體識別,情感分類,機器翻譯任務,介面比較友好。prodigy 2...