深度學習 提公升模型分類效能的幾點思考

2022-06-16 09:24:08 字數 629 閱讀 8668

使用cnn做文字分類已經有一段時間了,之前在封閉式測試集中模型的表現還是不錯的。但是,拿到實際環境彙總測試,問題就來了。模型過擬合嚴重,泛化能力弱。最終帶來的結果是,使用者體驗不佳。

改進的方面:

1)改變字元向量為詞向量。實際發現,以字元為單元的模型,在資料量少的情況下(10w以下),更容易過擬合,詞向量因具有最小語義單元的特性,能客服該問題

2)加入預處理工作。主要是去表情符,以「/微笑」等形式的文字如果不處理乾淨,非常影響短文本的長度,帶來模型效能下降

3)優化jieba分詞的使用者自定義字典。觀察jieba分詞後的語料,還是有很多分錯的詞,在垂直領域有很多特定詞彙,我們需要根據任務將這些特定詞彙加入分詞詞典,以使之分詞正確

4)提公升模型精度。

模型優化調參是重要的乙個部分。在我的過程中影響最大的還是預訓練詞向量,迭代次數(稍不注意就會模型過擬合),batch size的大小(盡可能的大一些,模型收斂會更平穩)。

謹慎地細心的擴充資料來源。增加資料往往是乙個很好的思路,這樣可以資料可以「告訴」我們更多的資訊,而不是僅僅依靠假設和弱相關性來構建模型,更多的資料無疑能帶來更好更精確的模型。 比較好的正負樣本是1:5.

以上是近期的乙個模型優化感悟,現在發現,針對短文本聊天內容分類,這個任務還是很難做的。希望對你有幫助。

機器學習模型效能提公升方案

機器學習最有價值的部分是 建模。這是在歷史資料上訓練模型並對新資料進行 的模型的開發。關於 建模的首要問題是 如何獲得更好的結果?這份備忘單包含了多年以來我的最佳應用程式,以及我對頂尖的機器學習從業人員和比賽獲勝者的學習所總結出的最佳建議。有了本指南,您不僅會得到解脫和提公升的效能,甚至可以在 問題...

深度學習模型訓練 分類問題。

模型分類問題主要包含二分類和多分類兩種場景。1 二分類為什麼會採用sigmoid啟用函式 模型在實際輸出時值可能不在 0,1 區間,我們需要把模型的輸出對映到 0,1 區間。二分類問題需要採用邏輯回歸的思路解決問題。原因是邏輯回歸服從0 1分布,即 p y 1 x p x p y 0 x 1 p x...

文字情感分類(二) 深度學習模型

原文寫的不錯 源 有改動。coding utf 8 created on sep 6,2016 author zhangdapeng from future import absolute import 匯入3.x的特徵函式 from future import print function imp...