讀書筆記 只有淺出沒有深入的資料分析 四

2021-08-27 19:00:51 字數 1846 閱讀 1100

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

df = pd.read_csv('./hfda_data/hfda_ch04_home_page1.csv')

plt.figure(1)

plt.subplot(1, 3, 1)

plt.scatter(df.iloc[:, 3], df.iloc[:, 2])

plt.plot([np.mean(df.iloc[:, 3]), np.mean(df.iloc[:, 3])], [0, np.max(df.iloc[:, 2])], 'b-')

plt.plot([0, np.max(df.iloc[:, 3])], [np.mean(df.iloc[:, 2]), np.mean(df.iloc[:, 2])], 'b-')

plt.xlabel('timeonsite')

plt.ylabel('revenue')

plt.subplot(1, 3, 2)

plt.scatter(df.iloc[:, 4], df.iloc[:, 2])

plt.plot([np.mean(df.iloc[:, 4]), np.mean(df.iloc[:, 4])], [0, np.max(df.iloc[:, 2])], 'b-')

plt.plot([0, np.max(df.iloc[:, 4])], [np.mean(df.iloc[:, 2]), np.mean(df.iloc[:, 2])], 'b-')

plt.xlabel('pageviews')

plt.ylabel('revenue')

plt.subplot(1, 3, 3)

plt.scatter(df.iloc[:, 5], df.iloc[:, 2])

plt.plot([np.mean(df.iloc[:, 5]), np.mean(df.iloc[:, 5])], [0, np.max(df.iloc[:, 2])], 'b-')

plt.plot([0, np.max(df.iloc[:, 5])], [np.mean(df.iloc[:, 2]), np.mean(df.iloc[:, 2])], 'b-')

plt.xlabel('returnvisits')

plt.ylabel('revenue')

plt.show()

每張散點圖中加的兩個藍線則代表了平均值。

書中對散點圖的介紹:

「散點圖是探索性資料分析的奇妙工具,統計學家用這個術語描述在一組資料中尋找一些假設條件進行測試的活動。分析師喜歡用散點圖發現因果關係,即乙個變數影響另乙個變數的關係。通常用散點圖的x軸代表自變數(我們假設為原因的變數),用y軸代表因變數(我們假設為結果的變數)」

書中沒有給出主頁2和主頁3的資料,不過我們的圖與主頁1中的圖一致,因此我們生成的圖應該是正確的。

從書上的圖中可以看到主頁2在三個維度表現都很糟糕,營業額也是低的可憐。

主頁3表現最好,回頭率略低於主頁1,瀏覽次數和瀏覽時間與主頁1相近,但是主頁3的營業額遙遙領先。

原書又向我們丟擲了另乙個問題,主頁3為何表現最好?

這裡沒有足夠的資料對結論給予支援,但是書中給了建議:

「繼續使用主頁3,對使用者體驗進行細化測試,細化內容包括各種導航方式、風格、內容等,對主頁3與眾不同的表現可以有各種各樣的解釋,應對此進行調查並形成圖表,但很明顯,主頁3已然勝出。」

散點圖是個很好的工具,在python中我們可以用matplotlib來製作各種圖形,就像matlab那樣,如果你對numpy pandas這些庫感興趣,或者對神經網路感興趣的話,不妨試著了解一下matplotlib。

讀書筆記 只有淺出沒有深入的資料分析 五

在第五章裡,我們要為乙個手機殼生產商 另一家公司手機出場時間。要求在手機 podphone 生產前乙個月生產手機殼。這裡也是給了我們一些前提條件,但是這些條件真假未知 1.podphone在新產品上的投資超過所有其他公司 2.和競爭對手的手機相比,他們手機效能將大幅改進 3.podphone的首席執...

讀書筆記 《深入淺出資料分析》讀書筆記

這本書呢它在每一章都安排了乙個企業問題,以解決乙個問題的形式去穿插知識點以及分析思路,可以快速掃讀了解一下分析思路還有思考一下課後問題。之前看見有些人推薦這本書,我才去看的,但是我並不推薦這本書,書裡的內容過於簡單,而且裡面的工具操作都落後了。確定問題 分解問題 將問題分解為更小的組塊 基準假設 評...

深入淺出資料分析 讀書筆記

本書是說明類的型別,主要內容是告訴我們該如何做資料分析。主要從一下幾個方面進行闡述 確定問題 分解問題 將乙個大問題分解為幾個小問題 評估 對每個問題使用資料評估 決策 迴圈執行這四個過程 驗證理論需要進行實驗對比,檢驗理論 要注意對照組的設定 列出各種可能。利用證據排所有的不可能的假設。證偽法。排...