本次課程使用jupyter, 這裡先簡單介紹一下用法.
啟動: 在shell模式下進入含有.ipynb檔案的目錄, 使用shell命令jupyter notebook
啟用jupyter.
jupyter有兩種模式, 當游標在單元格裡面時是編輯模式, 否則則為命令列模式, 不同的模式下有不同的快捷鍵, 查詢快捷鍵的方式是在命令列模式下輸入h
.
api: (seaborn文件:
plt.legend(): 給影象加上圖例(影象左上或者右上角的說明, 比如藍色代表a, 紅色代表b)
plt.subplot(nrows, ncols, index, **kwargs) 繪製子圖
sns.violinplot() (sns為seaborn庫) 小提琴繪圖, 類似於箱型圖,以基礎分布的核密度估計為特徵.
sns.distplot() 畫出直方圖並進行擬合.
sns.barplot() 畫出條形圖
sns.boxplot() 箱線圖, 從上到下的線分別為: 最大值, 上四分位數, 中位數, 下四分位數, 最小值.
sns.heatmap() 熱力圖
sns.kdeplot() 核密度估計圖
sns.scatterplot() 散點圖
時間序列(或稱動態數列):指將同一統計指標的數值按其發生的時間先後順序排列而成的數列。通常是在相等間隔的時間段內依照給定的取樣率對某種潛在過程進行觀測的結果。
週期因子的時間序列**步驟:
對週期進行分段:例如按照乙個月來計算的週期,分成每一天作為單位計算量,時間段規為每一周,如同上述案例的形式。
顯現頻次:統計最小單位的量,並計算時間段的均量,將已有的資料顯現出來。
計算週期因子:中位數因子,加權因子
**:根據每個單位的週期因子和base**最小單位數值,一般base會選擇就近的時間段均值。
優化base:優化base實際是優化時間段的均值,將上述最近單位的數值進行優化-去週期性,再取平均值。即保證了一定的延續性,又去掉了單個單位的週期性因素。
統計學中計算相關性: pearson, kendall, spearman 均是計算n個樣本的相關性.
特徵提取主要分為以下幾種:
基於日期的靜態特徵
基於距離的特徵(某一天距特殊週期的距離(例如某一天距離放假還有多少天))
波峰波谷特徵
週期因子作為特徵
動態時序特徵
特徵分析可使用各種統計圖來進行解析, 例如箱型圖、點線圖,也可以使用熱力圖分析各各特徵的相關性.
特徵篩選:
剔除無法有效分割資料集的特徵(從統計圖中發現兩個特徵具有相似密度估計圖)
剔除復共線特徵(剔除具有高相關性的特徵)
使用mvtest挽回一些有依賴性但是不相關的特徵(# mvtest ref:
選出優勝特徵(使用shap包獲取優勝特徵)
使用permutation importance包獲取優勝特徵
最終使用上述特徵進行線性回歸得到**值
畫出詞雲圖: from wordcloud import wordcloud
datawhale資料探勘任務六
通過之前的部落格可以看出,隨機森林的表現效果比較好。所以本次stacking融合的比較基準就是lr。至於融合,用的是隨機森林和邏輯回歸進行融合。為 任務六 使用stacking進行模型融合 構建 stacking 模型,用之前表現較好的lr和隨機森林進行模型融合 s clf stackingclas...
datawhale資料探勘課程 任務二
特徵衍生 在實際工作中,自己用到的是特徵公升維,即one hot encoding。另一種特徵衍生方法是特徵組合,比如拼接年齡 收入區間成為乙個新特徵,但是在金融行業一般不這麼做 因為可解釋性差容易不符合監管要求。計算iv函式。在機器學習的二分類問題中,iv值 information value 主...
DataWhale 資料探勘 Task2
import warnings import matplotlib.pyplot as plt import pandas as pd import pandas profiling import scipy.stats as st import seaborn as sns warnings.fi...