之前在《筆記︱信用風險模型(申請評分、行為評分)與資料準備(違約期限、woe轉化)》中提到過woe轉換,woe轉換=分箱法=logit值,與等深、等寬不同是根據被解釋變數來重新定義乙個woe值筆者將其定位於對自變數的資料轉換。
現在來看看對於因變數的資料轉換:box-cox轉換。
內容主要參考交大的課件:boxcox-變換方法及其實現運用.pptx其中:
在一些情況下(p值<0.003)上述方法很難實現正態化處理,所以優先使用box-cox轉換,但是當p值》0.003時兩種方法均可,優先考慮普通的平方變換。
**此時的檢驗步驟為:**先對資料進行正態性檢驗 -> 觀察檢驗的p值 -> 根據p值挑選合適的box-cox轉換函式
log,對數轉換,是使用最多的(資料必須大於0)
還有:平方根轉換
倒數轉換
平方根後取倒數
平方根後再取反正弦
冪轉換
資料不比大於》0
![這裡寫描述](
結構化資料 半結構化資料 非結構化資料
結構化資料 即行資料,儲存在資料庫裡,可以用二維表結構來邏輯表達實現的資料 所謂半結構化資料,就是介於完全結構化資料 如關係型資料庫 物件導向資料庫中的資料 和完全無結構的資料 如聲音 影象檔案等 之間的資料,html文件就屬於半結構化資料。它一般是自描述的,資料的結構和內容混在一起,沒有明顯的區分...
結構化資料 半結構化資料和非結構化資料
本文 在實際應用中,我們會遇到各式各樣的資料庫如nosql非關聯式資料庫 memcached,redis,mangodb rdbms關聯式資料庫 oracle,mysql等 還有一些其它的資料庫如hbase,在這些資料庫中,又會出現結構化資料,非結構化資料,半結構化資料,下面列出各種資料型別 結構化...
結構化資料 半結構化資料和非結構化資料
結構化資料 半結構化資料和非結構化資料 結構化的資料是指可以使用關係型資料庫表示和儲存,表現為二維形式的資料。一般特點是 資料以行為單位,一行資料表示乙個實體的資訊,每一行資料的屬性是相同的。舉乙個例子 id name age gender 1 lyh 12 male 2 liangyh 13 fe...