適合初學入門
本節基本了解pandas裡的一些資料結構和模組的基本使用,初步了解pandas的提供的一些功能,學會基本使用。
通過python的zip構造出一元組組成的列表作為dataframe的輸入資料rec。
in [3]: import pandas as pd
in [4]: import random
in [5]: num = random.sample(xrange(10000, 1000000), 5)
in [6]: num
out[6]: [244937, 132008, 278446, 613409, 799201]
in [8]: names = "hello the cruel world en".split()
in [9]: names
out[9]: ['hello', 'the', 'cruel', 'world', 'en']
in [10]: rec = zip(names, num)
in [15]: data = pd.dataframe(rec, columns = [u"姓名",u"業績" ])
in [16]: data
out[16]:
姓名 業績
0 hello 244937
1 the 132008
2 cruel 278446
3 world 613409
4 en 799201
dataframe方法函式的第乙個引數是資料來源,第二個引數columns是輸出資料表的表頭,或者說是**的欄位名。
windows平台上的編碼問題,我們可以先做個簡單處理,是ipython-notebook支援utf8.
import sys
reload(sys)
sys.setdefaultencoding("utf8")
接下來可以資料匯出了。
in [31]: data
out[31]:
姓名 業績
0 hello 244937
1 the 132008
2 cruel 278446
3 world 613409
4 en 799201
#在ipython-note裡後加問號可查幫助,q退出幫助
in [32]: data.to_csv?
in [33]: data.to_csv("c:\\out.csv", index = true, header = [u"雇員", u"銷售業績"])
將data匯出到out.csv檔案裡,index引數是指是否有主索引,header如果不指定則是以data裡columns為頭,如果指定則是以後邊列表裡的字串為表頭,但要注意的是header後的字串列表的個數要和data裡的columns欄位個數相同。
可到c盤用notepad++開啟out.csv看看。
in [43]: data
out[43]:
姓名 業績
0 hello 244937
1 the 132008
2 cruel 278446
3 world 613409
4 en 799201
#排序並取前三名
in [46]: sorted = data.sort([u"業績"], ascending=false)
sorted.head(3)
out[46]:
姓名 業績
#使ipython-notebook支援matplotlib繪圖
%matplotlib inline
in [74]: df = data
#繪圖df[u"業績"].plot()
maxvalue = df[u"業績"].max()
maxname = df[u"姓名"][df[u"業績"] == df[u"業績"].max()].values
text = str(maxvalue) + " - " + maxname
#給圖新增文字標註
如果注釋掉plt.annotate這行,結果如下所示:
python 大資料處理小結
1.shop min shop.drop category id longitude latitude price axis 1 pandas中刪除多個列 2.mall shop min.drop duplicates subset mall id pandas中將某一列去重 3.python寫檔案...
大資料處理
大資料處理的流程主要包括以下四個環節 採集 匯入 預處理 統計 分析 挖掘,下面針對這四環節進行簡單闡述。大資料處理之一 採集 在大資料的採集過程中,其主要特點和挑戰是併發數高,因為同時有可能會有成千上萬的使用者來進行訪問和操作,比如火車票售票 和 它們併發的訪問量在峰值時達到上百萬,所以需要在採集...
Python資料處理 Pandas模組使用(三)
資料 載入資料 pandas提供了一些將 型資料讀取為dataframe物件的函式,其中用的比較多的是read csv和read table,引數說明如下 引數說明 path 表示檔案位置 url 檔案型物件的字串 sep或delimiter 用於將行中的各欄位進行拆分的字串或正規表示式 head ...