這是乙份關於《深入淺出資料分析》的讀書筆記。比較枯燥,不過我盡量說得簡單,感興趣就看看。上個周我們聊到了這本書講到的一到三章,第一章呢是講資料分析的一些理念,聊到資料分析開始前要了解資料背後的故事,了解資料提供者的心智模型(說白了也就是資料管理者關於資料的看法),然後才開始分析資料;第二章講到了企業經營者或者其他人員可能對我們的分析產生干擾,企業經營者也可能對我們的分析結果進行質疑。我們要做的是,找出經營者與資料分析結果衝突的地方,從而進行解釋。如果無法解釋衝突點,就要合理懷疑我們根據資料分析出的結論;第三章講了在若干約束條件情況下的最優解。
週末說說資料分析(1)
本週我們繼續來聊聊這本書第四到六章。
第四章講資料圖形化和資料關係探索,裡面主要講關於大量多維資料視覺化,以及尋求資料間的因果關係。書中提供了一種叫做散點圖的工具用於探索二維到多維資料因果關係。關於散點圖的使用,這裡只需要看這個圖就可以了(下圖為乙個描述電商系統各項運營指標和營收之間關係的散點圖)
第五章講假設檢驗,這章其實很簡單。就是要讓我們對假設證偽,而不是依據直覺。其實我想起名偵探柯南裡面一句經典台詞:排除所有不可能,剩下的結論無論多麼不合理,都是答案。而對於無法證偽的假設,要看相關證據對假設的支援力度。選擇證據支援最強的假設,同時要動態加入新的證據。
個人感覺這一章其實並不是在講資料分析,但是在說推理,感興趣可以看看原書。
第六章是說貝葉斯統計,就是根據一項針對某疾病的測試結果和一些統計資料,估計你得這項疾病的機率,關於貝葉斯統計和傳統頻率統計感覺特別燒腦。主要就是這兩個東東:
1) 條件概率p(a|b):指在b事件發生時,發生a事件的概率,原書中用p(l|+)表示在已經測試為陽性的情況下,患蜥蜴流感的概率。
2)貝葉斯概率公式:p(l|+)=p(l)*p(+|l)/(p(l)*p(+|l)+p(~l)*p(+|~l)),其中p(l)+p(~l)=1, 為基礎概率,新的資訊會改變基礎概率,此時應該用新的基礎概率匯入重新計算。第七章貌似也是講貝葉斯統計,我再琢磨琢磨,下週再更。這次前兩章還好,第六章對學渣來說確實太不友好了。
其實看到這裡,這本書一些理念我其實非常贊同,但是就目前來說,有些實操,個人感覺最優解問題和散點圖似乎都可以用於財務**,但是貝葉斯統計暫時沒想到應用場景。
本文僅作記錄,下週見。
資料分析 樸素貝葉斯對文件分類
建立tfidfvectorizer,載入停用詞,對於超過半數文章 現的單詞不做統計 tfidf vec tfidfvectorizer stop words stop words,max df 0.5 對document進行擬合,得到各個文字各個詞的tf idf值 分類器用到的特徵空間 featur...
資料分析與機器學習學習筆記 貝葉斯演算法
貝葉斯演算法源自於概率論中的貝葉斯公式,首先我們了解一下貝葉斯公式的作用,概率論中分為正向概率與逆向概率 對於上面正向概率我們顯然會發現其摸出黑球的概率為m m n 而對於逆向概率我們第一眼看上去並沒有什麼好的方法,此時就要輪到本篇介紹的貝葉斯公式出場了,貝葉斯公式主要就是解決逆向概率而產生的。首先...
資料分析 資料分析概述
了解業務 了解資料 確認業務和資料 預期分析和管理 資料分析方式01.了解資料資料 1.測量標度型別 屬性本源並不是數字或者符號,通過測量標度將數值或者符號和物件的屬性建立關聯。屬性的型別 測量尺度 nominal 標稱 等於或者不等於 一對一的變換 ordinal 序數 大於或者小於 單調函式的變...