機器學習之資料清理經驗

2021-07-29 03:53:41 字數 601 閱讀 2358

文字類資料,尤其二分類,如果正反比懸殊(超過1:10),反例極容易出現包含正例的雜訊(人工標註準確率95%)

1.這時,首先去除反例中和正例完全相同的誤分類(比如新聞,就是標題;聊天資料就是去掉不可見字元後的文字)

2.視資料質量,也可以用一些高閾值的相似性比較方法,比如傑卡德,余弦,編輯距離等,再去除一部分雜訊

3.訓練好的分類器,在正例分類器中,按分類器的分值進行排序,頭部的「誤召回」通常是準確的正例識別,只是被人工標註誤分為反例

下圖是一張用fasttext做的二分類,識別為「正例」的資料隨閾值變化分布。橫軸為歸一化的分值從大到小(max=0),縱軸為閾值不斷變小,召回的」正例」中正反例的數量變化,其中出現在頭部區域,即閾值取較大數值時,依然「誤分」的反例,極大概率是雜訊(正例),可以人工針對進行清理。

4.同時上面的分類器,可以針對正負樣本,哪一種質量更高,反過來對另乙個類別有一定資料傾斜(比如由1:1配平,改為1;5,1:10)進行訓練,那麼高質量資料的是高召回,餘下的誤識別減少,這種情況下依然分類到正例的,尤其是頭部區域,更大概率是雜訊。

清理資料 資料預處理之「資料清理」

由於當今資料的數量龐大且來自於各種不同型別的 因此出現資料異常的可能性不斷增加。鑑於高質量資料可生成更好的模型和 資料預處理的重要性與日俱增,並且已經成為資料科學 機器學習 ai 管道中的基本步驟。在本文中,我們將 資料處理需求,並討論用於完成此流程中每個步驟的不同方法。在資料收集過程中,存在三個影...

機器學習之 載入資料

import numpy as np import urllib url with dataset url raw data urllib.request.urlopen url load the csv file as a numpy matrix dataset np.loadtxt raw d...

機器學習之資料預處理

1.為什麼需要資料預處理?原始資料來自於現實場景,常常有以下幾個特徵 髒 亂 差 缺。髒體現在原始資料裡混雜許多雜訊資料,亂體現在原始資料各維度量綱不同一。差體現在資料錯誤 出現不尋常不一致,這和髒相似。缺體現在原始資料的某些資料段值的缺失。2.資料預處理的方法。歸一化 標準化和中心化是資料預處理中...