# -*- coding: utf-8 -*-
#概念:資料分組,根據資料分析物件的特徵,按照一定的數值指標,把資料分析物件劃分為不同的區間進行研究,以揭示
#其內在的聯絡和規律性
#cut函式:cut(series,bins,right=true,labels=null)
#series:需要分組的序列資料
#bins:劃分陣列(如何定義劃分陣列是重點)
#right:分組的時候,右邊是否閉合,預設閉合
#labels:分組的自定義標籤,可以不自定義
#返回值:分組結果的序列,列名即上述的自定義標籤
import pandas
data = pandas.read_csv("d:/workspaces/python/pythonstudy/20.csv",sep="|")
#分析消費金額的分布情況:
#定義分組區間:
bins = [
min(data.cost)-1,20,40,60,80,100,max(data.cost)+1
]#問:分組區間中,最小值和最大值為什麼要分別減一和加一?
#答:因為分組的時候有可能會碰上邊界值(即需要分組的資料和我們的最小值或最大值相等),這可能會導致找不到範圍
#開始分組(左開右閉):
data["cut"] = pandas.cut(
data.cost,
bins
)#檢視分組結果,可以看到如果我們不自定義標籤,那麼python給我們生成的預設標籤是資料的範圍表示式
#左閉右開:
data["cut"] = pandas.cut(
data.cost,
bins,
right=false
)#自定義分組標籤:
labels = [
'20以下','20到40','40到60','60到80','80到100','100以上'
]#開始分組
data["cut"] = pandas.cut(
data.cost,
bins,
labels = labels
)
Python之資料處理
靠別人不如靠自己,學學學學學學學學!原資料 需求 coding utf 8 txtfile aminer1.txt newtxtfile open new txtfile,w with open txtfile,r as file to read lines file to read.readlin...
python之資料處理
檔案資料讀寫的基本操作 import this 本地檔案的界定 指向乙個本地儲存的檔案,是乙個連線或者乙個對映 path1 c users 11786 desktop test.txt 正斜線兩個或者反斜線乙個來用於資料路徑的表達 再或者用r 寫在檔案路徑外面 推薦第三種 path2 c users...
python筆記6 資料處理之匯入資料
coding utf 8 資料一般儲存在檔案 csv txt excel 和資料庫中 1.匯入csv檔案 第一行是列名 from pandas import read csv 檔案的編碼格式也應該是 utf 8 才行,否則報錯 df read csv d python workspace pytho...