《深入淺出資料分析》學習筆記(一)
2019/3/28-3/29
(一)資料分析的步驟
1.確定:從客戶那裡多了解資訊以確定問題;
2. 分解:將大問題分解為小問題;
3. 評估:對因子進行相互比較;
4. 決策:將分析形成報表;
(二)觀察分析法
定義:被研究的人自行決定自己屬於哪個群體的一種研究方法。
比較越多,分析結果越正確。
觀察分析法充滿混雜因素:研究物件的個人差異,它們不是你試圖進行比較的因素,最終會導致分析結果的敏感度變差。
e.g. 某店在全國都有分店。boss想要提高銷量,可以使用比較法進行試驗來確定「降價」或者其它方法的效果。那麼店址就是混雜因素。
(三)避免混雜因素
方法:隨機選擇相似組
(四)最優化
工具:excel中的sovler元件(規劃求解器)
(五)假設檢驗
首先利用證偽法排除若干假設
借助診斷性找出否定性最小的假設
「+」 :說明對h1有用
「++」:說明對h2更有用
「-」 :並未完全否定h3,但懷疑h3
(六)貝葉斯統計
p(a|b):在b的條件下a發生的概率
若b事件為a1+a2+…+an的子事件,則b = b(a1+a2+…+an) = ba1 + ba2 +…+ ban。從而p(b) = p(ba1) + p(ba2) +…+ p(ban) = p(bai),(i = 1,2 … n),又有
p(ab) = p(a|b)p(b) = p(b)p(b|a)。
在以上分析中,可以匯出貝葉斯公式:
e.g.記「a為患病」,「b為檢測為陽性」,則在試驗結果為陽性的條件下患病的概率為
[注]b為a+~a的子事件:檢測為陽性的人只能是要麼患病要麼為患病兩種狀態
貝葉斯規則是修正主觀概率的好辦法
深入淺出資料分析 學習筆記
資料分析固定流程 心智模型 觀察研究法 被研究的人自行決定自己屬於哪個群體的一種研究方法 拆分資料塊 為了控制觀察研究混雜因素,有時需將資料拆分為更小的資料塊。這些資料塊更具有同質性,即資料塊不包含那些有可能扭曲你的分析結果及讓你產生錯誤想法的內部偏差。控制組不可控因素 可控因素 假設檢驗 證偽法 ...
書評 《深入淺出資料分析》
深入淺出系列的書被很多人譽為神書,其原因是文字詼諧,內容簡單,排版休閒。深入淺出資料分析 書是一本資料分析大雜燴,囊括了許多資料分析的方法,思維,工具,可把目錄中13個章節視作本書的13個分支。在本書中中,作者把讀者當作一名資料分析師,然後跟著他的腳步拜訪各個公司,解決客戶的難題。很有種自娛自樂的感...
深入淺出資料分析 二
針對問題的觀察結果 保濕霜的消費者是處於豆蔻年華的少女消費者。他們基本上是唯一的消費群體。acme正在嘗試增加用於擴充套件社交網路的廣告費,但是迄今為止,新做法是否成功尚未可知。我們看出產品在少女消費群體中的銷售潛力是無限的。acme的競爭者極為危險。針對資料的觀察結果 2月份的銷量與上年9月份的銷...