python筆記20 資料處理之資料分組

# -*- coding: utf-8 -*-

#概念：資料分組，根據資料分析物件的特徵，按照一定的數值指標，把資料分析物件劃分為不同的區間進行研究，以揭示

#其內在的聯絡和規律性

#cut函式：cut(series,bins,right=true,labels=null)

#series:需要分組的序列資料

#bins:劃分陣列（如何定義劃分陣列是重點）

#right：分組的時候，右邊是否閉合，預設閉合

#labels:分組的自定義標籤，可以不自定義

#返回值：分組結果的序列，列名即上述的自定義標籤

import pandas

data = pandas.read_csv("d:/workspaces/python/pythonstudy/20.csv",sep="|")

#分析消費金額的分布情況：

#定義分組區間：

bins = [

min(data.cost)-1,20,40,60,80,100,max(data.cost)+1

]#問：分組區間中，最小值和最大值為什麼要分別減一和加一？

#答：因為分組的時候有可能會碰上邊界值（即需要分組的資料和我們的最小值或最大值相等），這可能會導致找不到範圍

#開始分組（左開右閉）：

data["cut"] = pandas.cut(

data.cost,

bins

)#檢視分組結果，可以看到如果我們不自定義標籤，那麼python給我們生成的預設標籤是資料的範圍表示式

#左閉右開：

data["cut"] = pandas.cut(

data.cost,

bins,

right=false

)#自定義分組標籤：

labels = [

'20以下','20到40','40到60','60到80','80到100','100以上'

]#開始分組

data["cut"] = pandas.cut(

data.cost,

bins,

labels = labels

)

Python之資料處理

靠別人不如靠自己，學學學學學學學學！原資料需求 coding utf 8 txtfile aminer1.txt newtxtfile open new txtfile,w with open txtfile,r as file to read lines file to read.readlin...

python之資料處理

檔案資料讀寫的基本操作 import this 本地檔案的界定指向乙個本地儲存的檔案，是乙個連線或者乙個對映 path1 c users 11786 desktop test.txt 正斜線兩個或者反斜線乙個來用於資料路徑的表達再或者用r 寫在檔案路徑外面推薦第三種 path2 c users...

python筆記6 資料處理之匯入資料

coding utf 8 資料一般儲存在檔案 csv txt excel 和資料庫中 1.匯入csv檔案第一行是列名 from pandas import read csv 檔案的編碼格式也應該是 utf 8 才行，否則報錯 df read csv d python workspace pytho...

python筆記20 資料處理之資料分組

Python之資料處理

python之資料處理

python筆記6 資料處理之匯入資料

相關推薦