如下所示:
import pandas as pd
path='f:/python/python資料分析與挖掘實戰/圖書配套程式設計客棧資料、**/chapter3/demo/data/catering_fish_congee.xls'
data=pd.read_excel(path,header=none,index_col=0)
data.index.name='日期'
data.columns=['銷售額(元)']
xse=data['銷售額(元)']
print(xse.max())
print(xse.min())
print(xse.max()-xse.min())
fanwei=list(range(0,4500,500))
fenzu=pd.cut(xse.values,fanwei,right=false)#分組區間,長度91
print(fenzu.codes)#標籤
print(fenzu.categories)#分組區間,長度8
pinshu=fenzu.value_counts()#series,區間-個數
print(pinshu.index)
import matplotlib.pyplot as plt
pinshu.plot(kind='bar')
#plt.text(0,29,str(29))
qujian=pd.cut(xse,fanwei,right=false)
data['區間']=qujian.values
data.groupby('區間').median()
data.groupby('區間').mean()#每個區間平均數
pinshu_df=pd.dataframe(pinshu,columns=['頻數'])
pinshu_df['頻率f']=pinshu_df / pinshu_df['頻數'].sum()
pinshu_df['頻率%']=pinshu_df['頻率f'].map(lambda x:'%.2f%%'%(x*100))
pinshu_df['累計頻率f']=pinshu_df['頻率f'].cumsum()
pinshu_df['累計頻率%']=pinshu_df['累計頻率f'].map(lambda x:'%.4f%%'%(x*100))
in[158]: pinshu_df
out[158]:
頻數 頻率f 頻率% 程式設計客棧 累計頻率f 累計頻率%
[0, 500) 29 0.318681 31.87% 0.318681 31.8681%
[500, 1000) 20 0.219780 21.98% 0.538462 53.8462%
[1000, 1500) 12 0.131868 13.19% 0.670330 67.0330%
[1500, 2000) 12 0.131868 13.19% 0.802198 80.2198%
[2000, 2500) 8 0.087912 8.79% 0.890110 89.0110%
[2500, 3000) 3 0.032967 3.30% 0.923077 92.3077%
[3000, 程式設計客棧3500) 4 0.043956 4.40% 0.967033 96.7033%
[3500, 4000) 3 0.032967 3.30% 1.000000 100.0000%
本文標題: pandas分區間,算頻率的例項
本文位址: /jiaoben/python/264523.html
Pandas中的時間序列的頻率 偏移量
通常,預設生成的時間序列是按天計算的,即頻率為 d d 是乙個基礎頻率,通過用乙個字串的別名表示,比如 d 是 day 的別名。pandas中的頻率是由乙個基礎頻率和乙個乘數組成的,比如,5d 表示每5天。接下來,通過一張表來列舉時間序列的基礎頻率 例子1 設定 dateindex物件的頻率 imp...
例項演示hive的靜態分割槽和動態分割槽
分割槽主要用於提高效能 分割槽列的值將表劃分為乙個個的資料夾 查詢時語法使用 分割槽 列和常規列類似 查詢時hive會只從指定分割槽查詢資料,提高查詢效率 注 由於hive實際是儲存在hdfs上的抽象,hive的乙個分割槽名對應乙個目錄名,子分割槽名就是子目錄名,並不是乙個實際字段。所以可以這樣理解...
那些算頻率的演算法,現在都怎麼樣了?
面試題 陣列中有乙個數字出現的次數超過陣列長度的一半,請找出這個數字並輸出。比如 中 2 的次數是 4,陣列長度為 7,所以輸出 2。要求不能修改輸入的陣列。這道題能思考到的測試用例比較簡單。輸入符合條件的陣列,檢視列印是否滿足情況 輸入不符合條件的陣列,檢視列印 輸入只有乙個元素的陣列,檢視列印 ...