在工業界一直流行著一句話,資料的質量決定了模型的上線了,而特徵工程與模型的選擇只是盡可能的去逼近這個上線,當我們在資料無法改變的情況,特徵工程的優化便顯得尤為重要。
我們輸入模型中,模型只認識資料,並不知道某一列所代表的含義,例如樹模型,它只會按照一定的規則去不停的分支,並不知道分支所代表的含義,而特徵工程所做的就是盡可能的將資料轉換成易於分支的或者分支後效果較好的資料。假設我們有很多車的行駛時間,與行駛距離兩列特徵,目的是判斷這輛車平時行駛的快慢,很顯然,我們會立刻想到用速度來判別快慢,但我們兩列特徵中沒有速度,這時我們通過特徵工程將距離除以時間得到速度這個新的特徵,然後樹模型在進行分支,自動學習到判別快慢的閾值點,從而得到良好的模型效果。
1 時間列
(1) 第一種轉換為與某一時間點的差值,一般為時間戳形式,或者與某一定固定時間(起始時間等)的差值
(2) 轉換成星期,小時,甚至分鐘,天數(1-31號哪一天),季度等等
(3)
2 地點特徵
(1)轉換成離散值,每一張地區設定一種編碼,多少個地點便設定多少中編碼格式,如果地點種類較多,可以使用除了地點列外其他特徵進行聚類,或者觀測每一種地點中各種label的比例分布,若比例分布相近的,則劃為一類。
(2)轉換成經緯度,可以通過高德地圖api轉換成經緯度形式,從而計算距離,遠近等特徵
3
機器學習之特徵工程
特徵工程是將原始資料轉化為更好代表 模型的潛在問題的特徵的過程,從而提高了對位置資料的 準確性。其包括特徵構建 特徵提取 特徵選擇三部分。資料和特徵決定了機器學習的上限,而模型和演算法只是逼近這個上限而已,成功的結果往往源自最開始對資料的處理。tf term frequency,詞的頻率,即出現的次...
機器學習之特徵工程
一 特徵抽象 特徵抽象是指將資料來源抽象演算法可以理解的資料,我們期望的資料是一組可以表達資料某種特性的數字。下面對幾種資料型別抽象舉例 1 時間戳 以某一天為基準值,採用演算法算出某數值,其他的採用和該基準值的差距。2 二值類問題 文字或其他描述的二值問題,可以量化為0和1表示。3 多值有序問題 ...
機器學習之特徵工程簡介
特徵工程非常重要。對於模型的效果起大了極大的作用。實際開發中,大部分的時間都花費在特徵工程上面。特徵工程最重要的是對具體業務的深刻理解。減少資料儲存和輸入的代價,降低資料的維度 發現更多深入的特徵,提公升準確率。特徵工程和降維,是處理高維度資料的兩大主要手段。特徵變換 變 特徵提取 組 資料格式化 ...