讀書筆記 只有淺出沒有深入的資料分析 五

2021-08-27 20:30:00 字數 2050 閱讀 6622

在第五章裡,我們要為乙個手機殼生產商**另一家公司手機出場時間。要求在手機(podphone)生產前乙個月生產手機殼。

這裡也是給了我們一些前提條件,但是這些條件真假未知:

1.podphone在新產品上的投資超過所有其他公司

2.和競爭對手的手機相比,他們手機效能將大幅改進

3.podphone的首席執行官說不會在明天公布

4.一家競爭對手剛剛發布新手機

5.經濟回暖

6.據傳,podphone不會在1年內發布

這裡書中給了乙個猜測,不會在近期發布。原因是當前他們的產品強勢,他們會等到這條產品線走下坡再開始推出新產品。

這裡還給了新的條件(原書145頁),這裡不再一一贅述。

這裡給出了一些特徵(消費者支出,podphone當前銷量,**商產量,競爭對手產品發布,競爭對手銷量,內部開發活動)

書中將各個特徵聯絡起來(使用正相關和負相關的方式)做成了樹狀圖。

現在要我們找出否定性最小的一種假設,這裡給出了5種假設:

1.明天發布

2.下個月發布

3.半年內發布

4.一年內發布

5.不發布

由於第一條和第五條與已知條件衝突,所以我們要在2、3、4當中選擇乙個。

書中給了乙個診斷性**來判斷,我們這裡來復現一下。

import pandas as pd

import numpy as np

_index = ['投資史無前例', '效能提公升', '不可能在明天推出', '對手剛剛發布**手機', '經濟回暖', '據傳今年不發布']

_columns = ['下個月', '半年內', '一年內']

df = pd.dataframe(np.zeros(18).reshape(6, 3), index=_index, columns=_columns)

原書用的「+」,「-」來表示相關性,同樣也有「++」這種,我們不妨用數字來表示。更易於計算。這裡我用的0來表示無關。

這裡前3個index對三個假設都呈正相關,我們這裡設定為1,競爭對手剛剛發布新手機讓短期發布手機的可能性降低,半年內發布可能性提高,1年內發布可能性也要提高但是低於半年內發布的可能性。經濟回暖讓當前和半年內發布可能性提高,1年內發布可能性降低。而今天不發布的訊息讓下個月和半年內發布可能性降低,1年內可能性提高。因此我們需要將原來的0換成其他數字。

df.iloc[[0, 1, 2], :] = 1

df.iloc[3, :] = [-1, 2, 1]

df.iloc[4, :] = [1, 1, -1]

df.iloc[5, :] = [-1, -1, 1]

按照書中這個**我們來求一下值。

print(df.mean())

>>>下個月 0.333333

半年內 0.833333

一年內 0.666667

dtype: float64

也就是按照書中的**來看,半年內發布的可能性最高。

然後這裡又給了我們乙個新的條件,說是看到podphone的員工在分發新手機。這個強有力的條件讓我們比之前的條件來的強的多,讓我們為其賦值。同時再次計算下df的平均數。

df1 = pd.dataframe([[3, -1, -1]], index=['分發新手機'], columns=_columns)

df2 = pd.concat([df, df1], axis=0)

print(df2.mean())

>>>下個月 0.714286

半年內 0.571429

一年內 0.428571

dtype: float64

可見綜合所有證據來看,下個月出現的概率最大。

雖然感覺這章原書設計的並不夠好,但也不是一無可取,書中著重強調了,不要直接找到乙個與當前證據無衝突的假設,就認為是正確假設,而是要通過當前的證據來一一排除錯誤的假設,對不能排除的則要判斷哪個假設更強一些。對於乙個證據對假設的影響到底有多大,只能各自判斷了,因為書中給的假設強度的判斷過程我也持有不同態度。

讀書筆記 只有淺出沒有深入的資料分析 四

import pandas as pd import numpy as np import matplotlib.pyplot as plt df pd.read csv hfda data hfda ch04 home page1.csv plt.figure 1 plt.subplot 1,3,...

讀書筆記 《深入淺出資料分析》讀書筆記

這本書呢它在每一章都安排了乙個企業問題,以解決乙個問題的形式去穿插知識點以及分析思路,可以快速掃讀了解一下分析思路還有思考一下課後問題。之前看見有些人推薦這本書,我才去看的,但是我並不推薦這本書,書裡的內容過於簡單,而且裡面的工具操作都落後了。確定問題 分解問題 將問題分解為更小的組塊 基準假設 評...

深入淺出資料分析 讀書筆記

本書是說明類的型別,主要內容是告訴我們該如何做資料分析。主要從一下幾個方面進行闡述 確定問題 分解問題 將乙個大問題分解為幾個小問題 評估 對每個問題使用資料評估 決策 迴圈執行這四個過程 驗證理論需要進行實驗對比,檢驗理論 要注意對照組的設定 列出各種可能。利用證據排所有的不可能的假設。證偽法。排...