python筆記20 資料處理之資料分組

2021-09-09 08:29:41 字數 1067 閱讀 9594

# -*- coding: utf-8 -*-

#概念:資料分組,根據資料分析物件的特徵,按照一定的數值指標,把資料分析物件劃分為不同的區間進行研究,以揭示

#其內在的聯絡和規律性

#cut函式:cut(series,bins,right=true,labels=null)

#series:需要分組的序列資料

#bins:劃分陣列(如何定義劃分陣列是重點)

#right:分組的時候,右邊是否閉合,預設閉合

#labels:分組的自定義標籤,可以不自定義

#返回值:分組結果的序列,列名即上述的自定義標籤

import pandas

data = pandas.read_csv("d:/workspaces/python/pythonstudy/20.csv",sep="|")

#分析消費金額的分布情況:

#定義分組區間:

bins = [

min(data.cost)-1,20,40,60,80,100,max(data.cost)+1

]#問:分組區間中,最小值和最大值為什麼要分別減一和加一?

#答:因為分組的時候有可能會碰上邊界值(即需要分組的資料和我們的最小值或最大值相等),這可能會導致找不到範圍

#開始分組(左開右閉):

data["cut"] = pandas.cut(

data.cost,

bins

)#檢視分組結果,可以看到如果我們不自定義標籤,那麼python給我們生成的預設標籤是資料的範圍表示式

#左閉右開:

data["cut"] = pandas.cut(

data.cost,

bins,

right=false

)#自定義分組標籤:

labels = [

'20以下','20到40','40到60','60到80','80到100','100以上'

]#開始分組

data["cut"] = pandas.cut(

data.cost,

bins,

labels = labels

)

Python之資料處理

靠別人不如靠自己,學學學學學學學學!原資料 需求 coding utf 8 txtfile aminer1.txt newtxtfile open new txtfile,w with open txtfile,r as file to read lines file to read.readlin...

python之資料處理

檔案資料讀寫的基本操作 import this 本地檔案的界定 指向乙個本地儲存的檔案,是乙個連線或者乙個對映 path1 c users 11786 desktop test.txt 正斜線兩個或者反斜線乙個來用於資料路徑的表達 再或者用r 寫在檔案路徑外面 推薦第三種 path2 c users...

python筆記6 資料處理之匯入資料

coding utf 8 資料一般儲存在檔案 csv txt excel 和資料庫中 1.匯入csv檔案 第一行是列名 from pandas import read csv 檔案的編碼格式也應該是 utf 8 才行,否則報錯 df read csv d python workspace pytho...