特徵總結
《資料探索與分析》主要內容是對原始資料及可選特徵分析。對翌日特徵、月特徵、日期特徵、節假日特徵、節假日周邊特徵等與購買量和贖回量進行了視覺化趨勢性分析。
匯入資料
新增時間戳
# 為資料集新增時間戳
data_balance[
'date'
]= pd.to_datetime(data_balance[
'report_date'],
format
="%y%m%d"
)data_balance[
'day'
]= data_balance[
'date'
].dt.day
data_balance[
'month'
]= data_balance[
'date'
].dt.month
data_balance[
'year'
]= data_balance[
'date'
].dt.year
data_balance[
'week'
]= data_balance[
'date'
].dt.week
data_balance[
'weekday'
]= data_balance[
'date'
].dt.weekday
時間序列分析
對原始資料的購買量、贖回量進行視覺化分析;
翌日特徵分析
選取每天的資料,對每週第二天的資料進行統計分析,包括小提琴圖、正態分佈圖、中位數特徵、箱體圖等;最後採用斯皮爾曼相關性對第二天資料與購買量及贖回量進行相關性分析;
月特徵分析
對一年中每個月的購買量和贖回量進行統計分析;然後將每月的總量轉為了概率分布,下圖為每月購買量的概率密度曲線。
日特徵分析
對每個月的購買量和贖回量進行統計分析;從中可以看出某些天存在異常點。如第一天、第二天、第16天等,同時對這些天的異常原因進行了說明;
熱力圖中可以看到第四周的週六的資料有異常,贖回量非常小。後面對這個資料分析發現是五一後上班的第一天。
節假日分析
對節假日次日及附近的日期購買量與贖回量進行了分析;
異常值分析
對每個月單筆最大、最小交易及總交易額進行分析;
使用者交易中的其他變數分析
銀行及支付寶利率的分析
支付寶利率影響購買量;
銀行利率印象贖回量;
支付寶利率影響短;
銀行利率影響長;
確定備選特徵;需要從原始資料進行多維度進行分析。
對備選特徵與所**目標的趨勢性進行相關性分析;
電商 商流 物流 資訊流 資金流
商流 常見的工業品下鄉和農產品進城可以統稱為農村電商的商流,將農產品或者工業品運用網上途徑銷售出去,有網上批發和網上零售等形式,而不是簡單的開個店。物流 農村物流可包含為農村居民的生產 生活以及其他經濟活動提供運輸 搬運 裝卸 包裝 加工 倉儲及其相關的一切活動,而不僅僅是送個貨。資訊流 資訊流是電...
支付和清算就是資訊流和資金流
假如你拿著一張工行卡去建行的atm取了100元,這時候就發生了跨行業務。這個過程非常簡單 建行系統告訴工行系統,有個工行使用者要在我這兒取100元,能不能讓他取?工行說,他的工行賬戶夠扣100元,你先幫我給了吧!建行atm就吐出100元給你 於是,你拿到了現金,同時你的工行賬戶也減少了100元。對你...
Datawhale資料探勘實戰 資金流入流出
本次課程使用jupyter,這裡先簡單介紹一下用法.啟動 在shell模式下進入含有.ipynb檔案的目錄,使用shell命令jupyter notebook啟用jupyter.jupyter有兩種模式,當游標在單元格裡面時是編輯模式,否則則為命令列模式,不同的模式下有不同的快捷鍵,查詢快捷鍵的方式...