商業資料分析實戰(酒捲隆志/裡洋平)
商業資料分析就是從現狀出發,尋找一條可以達到預期的最短路徑,再次過程中應著眼於找出主要的問題,然後根據下面的框架來解決這些問題。
現狀和預期結果有了差距——問題出現
現象就是:已經發生的事實,比如「銷售額下降」「顧客流失」;
問題就是:基於現象,發現需要解決的東西
比如「銷售額下降」就是現象,「如何提高銷售額」就是問題
以上為個人理解,對於書裡這一部分理解的還不夠透徹
觀察資料的大小:觀察哪些因素對差距的影響比較大
將資料分解後觀察:銷售額 = 人均銷售額 × 購買人數
將資料比較後觀察:將發生問題時的資料和沒發生問題時的資料相互比較
● 為了驗證問題,什麼樣的資料是必要的
● 這些必要的資料儲存成分析師可以馬上使用的形式了嗎
● 這些必要的資料在分析師提出申請後能使用嗎
● 當某些必要的資料沒有被儲存時,還能重新獲得這些資料嗎
● 當某些必要的資料沒有被儲存,並且重新獲得這些資料的代價太大時,有沒有其他可替代的資料
——除第一條之外,越排在前面的條目獲取資料的代價就越小。
資料的整合、生成用於判定的變數、生成離散變數
1、有助於決策支援的統計分析:幫助使用者做出決策並執行
2、有助於自動化·最優化的機器學習:幫助使用者構建讓計算機執行問題解決方案的演算法
1、人們做出決策並著手開始做某事或者停止做某事
2、構建用於執行解決對策的演算法並在計算機上執行
資料探勘 Chapter 2
本章 資料有什麼型別的屬性或字段組成?每個屬性具有何種型別的資料值 屬性 屬性是乙個資料字段,表示資料物件的乙個特徵。機器學習文獻更傾向於使用術語 特徵 而統計學家更源於使用術語 變數 資料探勘與資料庫的專業人士一般使用術語 屬性 屬性的種類 資料的基本統計描述 資料視覺化 層次視覺化 視覺化複雜物...
Python資料探勘建模 chapter 2決策樹
2.決策樹演算法分析 id3演算法 在各節點上用資訊增益法作為屬性選擇標準,只適合離散的描述屬性 c4.5演算法 用資訊增益率選擇節點屬性,可處理離散的描述屬性,連續的描述屬性 cart演算法 有效的非引數分類和回歸方法,終結點為連續變數時,為回歸樹,終結點為分類變數,為分類樹 常見的決策樹演算法還...
大話資料結構 Chapter 2 演算法
演算法是解決特定問題求解步驟的描述,在計算機中表現為指令的有限序列,並且每條指令表示乙個或多個操作 演算法具有五個基本特性 輸入 輸出 有窮性 確定性和可行性。2.2.1 輸入輸出 演算法有0個或多個輸入,至少有乙個或多個輸出。2.2.2 有窮性 有窮性 指演算法在執行有限的步驟之後,自動結束而不會...