深入淺出資料分析 學習筆記

2021-08-28 19:43:10 字數 1531 閱讀 2271

資料分析固定流程

心智模型

觀察研究法

被研究的人自行決定自己屬於哪個群體的一種研究方法

拆分資料塊

為了控制觀察研究混雜因素,有時需將資料拆分為更小的資料塊。這些資料塊更具有同質性,即資料塊不包含那些有可能扭曲你的分析結果及讓你產生錯誤想法的內部偏差。

控制組不可控因素;

可控因素

假設檢驗

證偽法:剔除無法證實的假設。可以克服人們專注於錯誤答案而無視於其他答案的天然傾向。通過強迫自己以完全正規的方式思考問題,會減少因忽視重要特徵情況而犯錯誤的可能性。

滿意法:選出看上去最可信的第乙個假設。滿意法的問題是當人們在未對其他假設進行透徹分析的情況下選取某種假設時,往往會堅持這個假設,即使反面證據堆積如山。

診斷性是證據所具有的一種功能,能夠幫助你評估所考慮的假設的相對似然。如果證據具有診斷性,就能幫助你對假設排序。

基礎概率

事前概率:在根據試驗結果單獨分析前,就知道的概率

主觀概率

如果用乙個數字形式的概率來表示自己對某事的確認程度,所用的就是主觀概率

是根據規律進行分析的巧妙方法,尤其是在**孤立事件卻缺乏從前在相同條件下發生過的可靠資料的情況下

啟發法心理學定義:用一種更便於理解的屬性代替一種難理解的、令人困惑的屬性

電腦科學定義:一種解決問題的方法,可能得出正確答案,但不保證得出最優化答案

快省樹快是指完成這個過程費時不多,省是指不需要大量認知資源

外插法用回歸方程**資料範圍以外的數值稱為外插法,風險大。使用外插法需要指定附加假設條件,明確表示不考慮資料集外發生的情況。

用回歸方程**資料範圍以內的數值稱為內插法,準確。

機會誤差

實際結果與**結果之間的偏差,又叫殘差

**總是與機會誤差同在

標準偏差

描述的是平均值周圍的分布情況

這種度量方式描述的是乙個變數

均方根誤差

描述的是回歸線周圍的分布情況

指兩個變數之間的關係

又稱殘差標準差

分割將資料分析拆分為幾個組。如果為幾個分組分別建立**模型比單獨使用乙個模型更能減小誤差,則應進行分割。

回歸線是與平均值圖形重合程度最高的線條

《深入淺出資料分析》學習筆記(一)

深入淺出資料分析 學習筆記 一 2019 3 28 3 29 一 資料分析的步驟 1.確定 從客戶那裡多了解資訊以確定問題 2.分解 將大問題分解為小問題 3.評估 對因子進行相互比較 4.決策 將分析形成報表 二 觀察分析法 定義 被研究的人自行決定自己屬於哪個群體的一種研究方法。比較越多,分析結...

書評 《深入淺出資料分析》

深入淺出系列的書被很多人譽為神書,其原因是文字詼諧,內容簡單,排版休閒。深入淺出資料分析 書是一本資料分析大雜燴,囊括了許多資料分析的方法,思維,工具,可把目錄中13個章節視作本書的13個分支。在本書中中,作者把讀者當作一名資料分析師,然後跟著他的腳步拜訪各個公司,解決客戶的難題。很有種自娛自樂的感...

深入淺出資料分析 二

針對問題的觀察結果 保濕霜的消費者是處於豆蔻年華的少女消費者。他們基本上是唯一的消費群體。acme正在嘗試增加用於擴充套件社交網路的廣告費,但是迄今為止,新做法是否成功尚未可知。我們看出產品在少女消費群體中的銷售潛力是無限的。acme的競爭者極為危險。針對資料的觀察結果 2月份的銷量與上年9月份的銷...