特徵工程(2) 資料採集 資料清洗 資料取樣

2021-08-01 01:11:05 字數 655 閱讀 7832

一、資料採集:資料採集前需要明確採集哪些資料,一般的思路為:哪些資料對最後的結果**有幫助?資料我們能夠採集到嗎?線上實時計算的時候獲取是否快捷?    

舉例1:我現在要**使用者對商品的下單情況,或者我要給使用者做商品推薦,那我需要採集什麼資訊呢?     

-店家:店鋪的評分、店鋪類別……    

-商品:商品評分、購買人數、顏色、材質、領子形狀……    

-使用者:歷史資訊(購買商品的最低價最**)、消費能力、商品停留時間……    

二、資料清洗: 資料清洗也是很重要的一步,機器學習演算法大多數時候就是乙個加工機器,至於最後的產品如何,取決於原材料的好壞。資料清洗就是要去除髒資料,比如某些商品的刷單資料。    

那麼如何判定髒資料呢?    

1) 簡單屬性判定:乙個人身高3公尺+的人;乙個人乙個月買了10w的發卡。    

2) 組合或統計屬性判定:號稱在公尺國卻ip一直都是大陸的新聞閱讀使用者?你要判定乙個人是否會買籃球鞋,樣本中女性使用者85%?    

3) 補齊可對應的預設值:不可信的樣本丟掉,預設值極多的字段考慮不用。    

三、資料取樣:採集、清洗過資料以後,正負樣本是不均衡的,要進行資料取樣。取樣的方法有隨機取樣和分層抽樣。但是隨機取樣會有隱患,因為可能某次隨機取樣得到的資料很不均勻,更多的是根據特徵採用分層抽樣。

特徵工程 清洗資料

我們在進行機器學習的時候,採用的資料樣本往往是向量 特徵向量 而我們的原始資料並不是以向量的形式呈現給我們的,這是便需要將資料對映到特徵 直接對映便ok 雖然機器學習是根據浮點值進行的訓練,但是不需要將整數6轉換為6.0,這個過程是預設的 好多時候,有的特徵是字串,比如此前訓練的加利福尼亞房產資料集...

資料清洗與特徵工程

查詢空值 處理空值的辦法 1.刪除空值所在的行 2.用給定的值去填充 查詢重複值 刪除重複值 對數值型資料 連續資料進行離散化處理 文字型別處理 方法三 使用sklearn.preprocessing的labelencoder from sklearn.preprocessing import la...

採集資料小總結

採集過程遇到的問題 1.十分鐘內訪問資料頁面,需要輸入驗證碼 2.每天ip限定訪問五十個以內,用完則明天再來 b 剛開始的解決辦法 b 去抓取網上提供的 ip 埠,然後 訪問 問題 ip好多不能用,需要 ip個數較多,然後還要根據採集 的規則設定,比如十分鐘內每個 訪問規則數量 1,之後再次訪問.b...