基本統計分析又叫描述性統計分析,一般統計某個變數的最小值,第一四分位值,中值,第三四分位值,以及最大值。
常用的統計指標:
指標panda方法或屬性
計數size()
最大值max
最小值min
求和sum
平均值mean
方差var
標準差std
顯示各個等分值
describe()
根據分組字段,將分析物件劃分為不同的部分,以進行對比各組之間差異性的一種分析方法。
常用的統計指標:計數,求和,平均值
分布分析是指根據分析目的,將資料(定量資料)進行等距或者不等距的分組,進行研究各組分布規律的一種分析方法;舉例來說,把年齡12-80的一群人分為[20歲以下, 20-29, 30-39, 40以上],在比較各組人數多少
交叉分析通常用於分析兩個或兩個以上,分組變數之間的關係,以表形式進行變數間關係的對比比較
分為:在分組的基礎上, 計算各組成部分所佔的比重,進而分析總體內部特徵的一種分析方法。
研究現象之間是否存在某種依賴分析,並對具有依存分析的現象**其相關方向以及相關程度,是研究隨機變數之間的相關關係的一種統計方法。
相關係數r取值範圍
相關程度
0<=|r|<0.3
低度相關
0.3<=|r|<0.8
中度相關
0.8<=|r|<=1
高度相關
函式作用
返回值dataframe.corr()
就會計算每個列兩兩之間的相關性
dateframe
series.corr(other)
計算series與傳入的序列之間的相關度
數值,大小為相關度
資料分析流程
主要使用pandas資料報來處理資料,以及常用到的pandas裡的函式。在這裡我們需要引入庫 import pandas as pd 並且規定下面縮寫 pd.read csv filename 從csv檔案匯入資料 pd.read table filename 從限定分隔符的文字檔案匯入資料 pd....
資料分析流程
資料庫中沒有的資料,利用python進行資料清洗,將資料根據對應字段錄入資料庫。根據下浮率和 公式 利用資料庫中的資料進行視覺化,制定資料分析報告。暫時還不需要實現網頁的功能,軟體僅在公司內部使用。1 許部安排人員將上個月的所有商業標建立資料夾,按照投標檔案,中標檔案的方式,統一儲存。2 搭建mys...
1 資料分析流程
進入公司後發現公司內主要遵循了以下圖中的資料分析流程,名為crisp dm cross industry standard process for data mining。此為業界認可的用於指導資料探勘工作的方法。在具體實踐中,業務理解,資料理解是十分重要的部分,間接決定了資料準備的複雜度。建立模型...