# -*- coding: utf-8 -*-
#1、概念:基本統計分析:描述性統計分析,用來概括事物整體狀況以及事物間聯絡(即事物的基本特徵),以發現其內在規律的統計分析方法。
# 常用的統計指標:計數、求和、平均值、方差、標準差
#方差:統計中的方差(樣本方差)是每個樣本值與全體樣本值的平均數之差的平方值的平均數。在許多實際問題中,研究方差即偏離程度有著重要意義。
#標準差:標準差是方差的算術平方根(開根號).標準差能反映乙個資料集的離散程度.平均數相同的兩個序列,標準差未必相同。乙個較大的標準差,代表大部分數值和其平均值之間差異較大;乙個較小的標準差,代表這些數值較接近平均值
#2、描述性統計分析函式:describe():在需要分析的變數列後直接呼叫,就可以得到描述性資訊,如最小值、最大值、標準差等等
#常用的統計函式:
#size:計數
#sum:求和
#mean:平均值
#var:方差
#std:標準差
import pandas
data = pandas.read_csv("d:/workspaces/python/pythonstudy/24.csv")
data.score.describe()
data.score.size
data.score.max()
data.score.min()
data.score.sum()
data.score.mean() #平均值
data.score.var() #方差
data.score.std() #標準差
#累計求和:
data.score.cumsum() #注意:不是單純的求和!它的返回值是乙個序列,可以看到累計求和的過程資料
data.score.argmin() #最小值的位置(下標從0開始)
data.score.argmax() #最大值的位置
#下面這個函式很常用,特別是在rfm分析當中。函式名稱:分位數函式;作用:進行分位數的求解
#什麼是統計學中的p分位數:
#就是先把一列數按從小到大排序,如果一共有n個數,那麼四分之一分位數就是第n*0.25個數,四分之三分位數就是第n*0.75個數,以此類推,p分位數就是第n*p個數.如果n*p不是整數則往最接近的較大的整數上歸
#求出排序在30%的數值:
data.score.quantile(0.3,interpolation="nearest")
#interpolation="nearest" 表示如果找不到精確的百分位排序數,那麼使用離它最近的那個數字進行返回
Python資料分析筆記
數值型字元型 資料結構 取值 true 真 false 假 運算規則 與 一假為假,兩真為真 true true true false false false 或 兩假為假,一真為真 true true true false false falsenot 非 非真為假,非假為真 not true n...
python筆記29 資料分析之相關分析
coding utf 8 1.概念 相關分析 correlation analysis 是研究兩個或兩個以上隨機變數之間相互依存關係的方向和密切程度的方法。相關分析分為 線性相關 非線性相關 這裡我們主要介紹常用的線性相關,線性相關也稱為直線相關,也就是當乙個連續變數發生變動時,另乙個連續變數相應的...
python筆記31 資料分析之矩陣分析
coding utf 8 1.概念 矩陣分析,是指根據事物 如產品,服務等 的兩個重要屬性 指標 作為分析的依據,進行關聯分析,找出解決 問題的一種分析方法。矩陣分析法在解決問題和資源分配時,為決策者提供重要的參考依據,先解決主要矛盾,再解決次要矛盾,有利於提高工作效率,有 利於決策者進行資源的優化...