何為特徵工程
特徵使用方案
1)要實現我們的目標需要哪些資料
2)可行性評估:獲取難度,覆蓋率,準確率
特徵獲取方案
1)如何獲取這些特徵?
2)如何儲存,什麼樣的形式儲存
特徵清洗
1)特徵清洗,異常樣本的清晰
2)取樣資料均衡問題
特徵預處理
1)對於單個特徵:歸一化,標準化,離散化,dummy coding,缺失值填充,資料變換(log,指數)
2)對於多個特徵:
降維(pca,lda)
不同型別資料的特徵處理
數值型:
類別型:
時間類:
文字型:
統計型:
異常資料常用處理方法
缺失值:
特徵數值分布長尾:
有偏度的特徵:
異常點:
資料縮放的手段
標準化:
用原始資料減去均值,再處以標準差。
歸一化:
原始資料減去最小值,除以最大值與最小值的差。
"用同一把尺子量資料"。
HTTP協議不得不知的基礎
http超文字傳輸協議,是乙個引用層協議,基於 請求與響應 模式,以url作為網路資源的定位。url的格式 http host port path 其中,host 為合法的internet主機網域名稱或者ip位址,port是埠值,預設埠為80,path為請求資源的路徑 資源定位 url 資源管理 六...
你不得不知的生活常識。。。。
1,涼水洗腳有損健康.2,夏季多吃苦味有益健康.3,多喝水能防腎結石.4,夏季不宜光著上身睡覺.5,冬季養生宜多食熱粥.6,冬季洗澡次數不宜多.7,冬季不宜長期待在溫暖房間.8,不宜長時間停留在冬季霧氣中.9,冬天不宜把圍巾當口罩用.10,冬天早晨不宜洗頭.11,健身前熱身活動很重要.12,運動損傷...
mysql編碼不得不知的問題
1 檢視mysql相關編碼 檢視mysql資料庫所支援的編碼 showcharacterset 檢視當前變數中的一些編碼情況 show variableslike character 檢視某個資料庫的編碼 showcreatedatabasedb name 檢視某個表的字符集 showcreatet...