在第五章裡,我們要為乙個手機殼生產商**另一家公司手機出場時間。要求在手機(podphone)生產前乙個月生產手機殼。
這裡也是給了我們一些前提條件,但是這些條件真假未知:
1.podphone在新產品上的投資超過所有其他公司
2.和競爭對手的手機相比,他們手機效能將大幅改進
3.podphone的首席執行官說不會在明天公布
4.一家競爭對手剛剛發布新手機
5.經濟回暖
6.據傳,podphone不會在1年內發布
這裡書中給了乙個猜測,不會在近期發布。原因是當前他們的產品強勢,他們會等到這條產品線走下坡再開始推出新產品。
這裡還給了新的條件(原書145頁),這裡不再一一贅述。
這裡給出了一些特徵(消費者支出,podphone當前銷量,**商產量,競爭對手產品發布,競爭對手銷量,內部開發活動)
書中將各個特徵聯絡起來(使用正相關和負相關的方式)做成了樹狀圖。
現在要我們找出否定性最小的一種假設,這裡給出了5種假設:
1.明天發布
2.下個月發布
3.半年內發布
4.一年內發布
5.不發布
由於第一條和第五條與已知條件衝突,所以我們要在2、3、4當中選擇乙個。
書中給了乙個診斷性**來判斷,我們這裡來復現一下。
import pandas as pd
import numpy as np
_index = ['投資史無前例', '效能提公升', '不可能在明天推出', '對手剛剛發布**手機', '經濟回暖', '據傳今年不發布']
_columns = ['下個月', '半年內', '一年內']
df = pd.dataframe(np.zeros(18).reshape(6, 3), index=_index, columns=_columns)
原書用的「+」,「-」來表示相關性,同樣也有「++」這種,我們不妨用數字來表示。更易於計算。這裡我用的0來表示無關。
這裡前3個index對三個假設都呈正相關,我們這裡設定為1,競爭對手剛剛發布新手機讓短期發布手機的可能性降低,半年內發布可能性提高,1年內發布可能性也要提高但是低於半年內發布的可能性。經濟回暖讓當前和半年內發布可能性提高,1年內發布可能性降低。而今天不發布的訊息讓下個月和半年內發布可能性降低,1年內可能性提高。因此我們需要將原來的0換成其他數字。
df.iloc[[0, 1, 2], :] = 1
df.iloc[3, :] = [-1, 2, 1]
df.iloc[4, :] = [1, 1, -1]
df.iloc[5, :] = [-1, -1, 1]
按照書中這個**我們來求一下值。
print(df.mean())
>>>下個月 0.333333
半年內 0.833333
一年內 0.666667
dtype: float64
也就是按照書中的**來看,半年內發布的可能性最高。
然後這裡又給了我們乙個新的條件,說是看到podphone的員工在分發新手機。這個強有力的條件讓我們比之前的條件來的強的多,讓我們為其賦值。同時再次計算下df的平均數。
df1 = pd.dataframe([[3, -1, -1]], index=['分發新手機'], columns=_columns)
df2 = pd.concat([df, df1], axis=0)
print(df2.mean())
>>>下個月 0.714286
半年內 0.571429
一年內 0.428571
dtype: float64
可見綜合所有證據來看,下個月出現的概率最大。
雖然感覺這章原書設計的並不夠好,但也不是一無可取,書中著重強調了,不要直接找到乙個與當前證據無衝突的假設,就認為是正確假設,而是要通過當前的證據來一一排除錯誤的假設,對不能排除的則要判斷哪個假設更強一些。對於乙個證據對假設的影響到底有多大,只能各自判斷了,因為書中給的假設強度的判斷過程我也持有不同態度。
讀書筆記 只有淺出沒有深入的資料分析 四
import pandas as pd import numpy as np import matplotlib.pyplot as plt df pd.read csv hfda data hfda ch04 home page1.csv plt.figure 1 plt.subplot 1,3,...
讀書筆記 《深入淺出資料分析》讀書筆記
這本書呢它在每一章都安排了乙個企業問題,以解決乙個問題的形式去穿插知識點以及分析思路,可以快速掃讀了解一下分析思路還有思考一下課後問題。之前看見有些人推薦這本書,我才去看的,但是我並不推薦這本書,書裡的內容過於簡單,而且裡面的工具操作都落後了。確定問題 分解問題 將問題分解為更小的組塊 基準假設 評...
深入淺出資料分析 讀書筆記
本書是說明類的型別,主要內容是告訴我們該如何做資料分析。主要從一下幾個方面進行闡述 確定問題 分解問題 將乙個大問題分解為幾個小問題 評估 對每個問題使用資料評估 決策 迴圈執行這四個過程 驗證理論需要進行實驗對比,檢驗理論 要注意對照組的設定 列出各種可能。利用證據排所有的不可能的假設。證偽法。排...