分析問題
匯入資料
簡單檢視資料(head)
獲取資料規模(shape)
了解資料條目及資訊(dtypes, info)
ps:注意null情況,如果存在可能需要處理。
了解資料的特點 (describe)
ps:分為數字資訊和描述資訊。(自己亂起的名)
單變數分析(univariate analysis)
ps:對於有範圍的特徵可以畫箱型圖(boxplot)來尋找異常值並為後續資料清洗做準備,其餘可選擇條形圖,直方圖等,對於某些過多又無用的資料(例如:none)可進行篩選然後作圖。
雙(多)變數分析(bivariate analysis)
分析變數與變數,變數與目標變數的關係,對相關變數(特徵)進行合併。(part of 特徵工程)
關於散布矩陣圖
原理及細節(目前不能全看懂)
關於聯合分布圖
熱力圖(heatmap)(利用pandas資料的corr函式)
進行特徵工程及資料清洗
對資料進行整合,異常值處理。
選擇合適的模型進行訓練。(機器學習)
初學菜鳥,歡迎大佬斧正。
Python資料分析入門筆記
資料基本處理 資料缺失值處理有好幾種對應的函式,接下來介紹三種我學習的函式dropna,fillna,replace.這三種函式功能上的區別,以及不同的適用場景.這三種函式都在pandas裡,所以寫 時首先要匯入pandas dropna 函式是用來濾除缺失值的,預設的情況下是清除所有的含有nan資...
資料分析入門
2018年6月14日筆記 用適當的統計分析方法對收集來的大量資料進行分析,將他們加以彙總和理解並加以消化,以求最大化的開發資料功能,發揮資料的作用。資料分析可用於現狀分析,原因分析,分析。明確分析目的和思路 資料收集 資料處理 資料分析 資料展現 報告撰寫 明確分析目的之菜鳥與分析師對比 菜鳥想法....
資料分析入門知識筆記總結
資料分析是什麼,小夥伴們自行去問度娘哈。為了降低閱讀壓力,不讓篇幅太長,我特意拆成上 下兩篇來分享自己這幾天學到的知識。我特別不喜歡只會裝逼的產品經理,看文章也一樣不喜歡華而不實的。所以督促自己寫文章時,把懂的 經歷過的能細就寫的盡量詳細 不懂的就去學,然後把整理的筆記分享出來,資料分析方面我涉入不...