資料探勘之處理分類自變數與處理時間變數

2021-07-23 22:40:40 字數 801 閱讀 7121

某些資料探勘方法能夠直接處理分類自變數,譬如第八章將介紹的決策樹;但很多資料探勘方法都只能處理數值自變數,如線性回歸、神經網路等,使用這些方法時就需要把分類自變數轉換為數值自變數。

對於定序自變數,最常用的一種轉換是按各類別的序號直接將該變數轉換為數值自變數。對於名義自變數,最常用的轉換是將該變數轉換為啞變數。例如,對於性別而言,可以生成乙個二元啞變數,取值1表示「女」,0表示「男」。

對於有多個取值的名義自變數,可以生成一系列二元啞變數。例如,中國內地有31個省、自治區和直轄市,可以據此生成30個啞變數。但是,如果乙個名義自變數取值過多,生成過多的啞變數容易造成過度擬合。乙個簡單而有效的方法是只針對包含觀測比較多的類別生成啞變數,而將剩餘的類別都歸於「其他」這個大類別。還有一種方法是利用領域知識,將各類別歸為幾個大類之後再生成啞變數,例如,將中國內地31個省、自治區和直轄市歸為華北、華中、華東、華南、西北、東北、西南等地區,再生成地區的啞變數。

時間變數無法直接進入建模資料集,因為時間是無限增長的,在歷史資料中出現的時間肯定不同於將來模型所需應用的資料集中出現的時間,所以直接使用歷史資料的時間建立的模型就無法應用於將來的資料集。如果要在建模過程中考慮時間變數,就必須對其進行轉換。常用的轉換有如下幾種:

1.轉換為距某一基準時間的時間長短,例如,「距離××年××月××日的天數」、「距離下一次春節的週數」等。

2.轉換為季節性資訊,例如,一年中第幾季度或第幾個月,每個季度或月對應於乙個二元啞變數。

很多情形下可以考慮對時間進行多種轉換,把所有可能影響因變數的時間資訊都放入建模過程中。例如,對於某些食品的購買量而言,不僅存在節日效應,也存在季節性效應,這時就需要同時使用上述兩種轉換。

資料探勘之處理分類自變數與處理時間變數

某些資料探勘方法能夠直接處理分類自變數,譬如第八章將介紹的決策樹 但很多資料探勘方法都只能處理數值自變數,如線性回歸 神經網路等,使用這些方法時就需要把分類自變數轉換為數值自變數。對於定序自變數,最常用的一種轉換是按各類別的序號直接將該變數轉換為數值自變數。對於名義自變數,最常用的轉換是將該變數轉換...

cleanlab實戰處理二之處理多分類任務標籤

想使用cleanlab 這個工具,找出資料中錯誤的人工標註的標籤。普通的標籤任務有兩種 from cleanlab.pruning import get noise indices 輸入 s 雜訊標籤 psx n x m 的 概率概率,通過交叉驗證獲得 ordered label errors ge...

springmvc之處理模型資料

當我們採用對映路徑對映到方法處理完資料時,需要將資料顯示在頁面上。然而springmvc框架提供可以將模型資料暴露給檢視的解決方案。modelandview 當處理方法返回值型別為modelandview時,方法體即可通過該物件新增模型資料。modelattribute註解 在方法入參標記了該註解後...