python筆記27 資料分析之交叉分析

2021-09-10 17:16:43 字數 956 閱讀 1273

# -*- coding: utf-8 -*-

#1、概念:交叉分析,通常用於分析兩個或兩個以上,分組變數之間的關係,以交叉表形式進行變數間關係的對比分析;

#可以有三種情況下的交叉:定量與定量分組進行交叉;定量與定性分組進行交叉;定性與定性分組進行交叉

#建議交叉的維度為兩個維度即可,維度越多,越細,就越難發現規律

#2、交叉計數函式:

#pivot_table(values,index,columns,aggfunc,fill_value)

#引數說明:

#values:資料透視表(pivot_table返回的表)中的值

#index:資料透視表中的行(行分組的列陣列,也就是資料透視表中的行)

#columns:資料透視表中的列(列分組的列陣列,也就是資料透視表中的列)

#aggfunc:統計函式(也就是資料表中對統計列(values指定的列)的統計函式,常用的統計函式就是之前學的計數、求和等)

#fill_value:na值的統一替換

#更詳細的講解可參考:

import numpy

import pandas

data = pandas.read_csv("d:/workspaces/python/pythonstudy/27.csv")

bins = [min(data.年齡)-1,20,30,40,max(data.年齡)+1]

labels = ['20歲以及以下','21歲到30歲','31歲到40歲','41歲以上']

data['年齡分層'] = pandas.cut(data.年齡,bins,labels=labels)

ptresult = data.pivot_table(

values=['年齡'],

index=['年齡分層'],

columns=['性別'],

aggfunc=[numpy.size]

)

Python資料分析筆記

數值型字元型 資料結構 取值 true 真 false 假 運算規則 與 一假為假,兩真為真 true true true false false false 或 兩假為假,一真為真 true true true false false falsenot 非 非真為假,非假為真 not true n...

python筆記29 資料分析之相關分析

coding utf 8 1.概念 相關分析 correlation analysis 是研究兩個或兩個以上隨機變數之間相互依存關係的方向和密切程度的方法。相關分析分為 線性相關 非線性相關 這裡我們主要介紹常用的線性相關,線性相關也稱為直線相關,也就是當乙個連續變數發生變動時,另乙個連續變數相應的...

python筆記31 資料分析之矩陣分析

coding utf 8 1.概念 矩陣分析,是指根據事物 如產品,服務等 的兩個重要屬性 指標 作為分析的依據,進行關聯分析,找出解決 問題的一種分析方法。矩陣分析法在解決問題和資源分配時,為決策者提供重要的參考依據,先解決主要矛盾,再解決次要矛盾,有利於提高工作效率,有 利於決策者進行資源的優化...