一 學習資料探勘,如果是用python的話,必須掌握好科學計算的相關庫,我先學習了pandas的一些具體操作**
#-*- encoding:utf-8 -*-
import numpy as np
import os
import pylab as pl
import pandas as pd
from pandas import series,dataframe
import matplotlib.pyplot as plt
# s = pd.series([1, 2, 3, np.nan, 4, 5])
# # print s
# dates = pd.date_range('20171001',periods=6)
# # print dates
# df = pd.dataframe(np.random.randn(6, 4), index=dates, columns=list('abcd'))
# #index索引 columns 縱列
# # print df
# df2 = pd.dataframe()
# right = pd.dataframe()
# g = pd.merge(left,right, on ='key')# x*y的形式相加
# df = pd.dataframe(np.random.randn(10,4),columns=['a','b','c','d'])
# s = df.iloc[3]#第三行位置
# df = pd.dataframe()
# df = df.groupby('b').sum()#把b列中相同的值對應的值求和
# df = df.groupby(['a','b']).sum()#把ab列兩個係數當做key,對相同的key的值求和
# tuples = list(zip(*[['bar', 'bar', 'baz', 'baz',
# 'foo', 'foo', 'qux', 'qux'],
# ['one', 'two', 'one', 'two',
# 'one', 'two', 'one', 'two']]))
# index = pd.multiindex.from_tuples(tuples,names=['first','second'])#定義兩個屬性
# df = pd.dataframe(np.random.randn(8,2),index=index,columns=['a','b'])
# df2 = df[:5]
# print df2
# stacked = df2.stack#展示每行乙個資料,a,b作為key
# stacked.unstack()#返回原來結構
# print stacked
# df = pd.dataframe()
# print df
# # df= pd.pivot_table(df, values='d', index=['a', 'b'], columns=['c'])#產生資料透視表
# # print df
# rng = pd.date_range('20171026',periods=100,freq='h')
# ts = pd.series(np.random.randint(0,500,len(rng)),index = rng)#通過時間取樣
# g = ts.resample('5min').sum()#轉換頻率
# rng = pd.date_range('3/6/2012 00:00', periods=5, freq='d')
# ts = pd.series(np.random.randn(len(rng)), rng)
# ts_utc = ts.tz_localize('utc')#時區表示
# ts_utc.tz_convert('us/eastern')#改變為其他時區
# print ts
# rng = pd.date_range('1/1/2012', periods=5, freq='m')
# ts = pd.series(np.random.randn(len(rng)), index=rng)
# ps = ts.to_period()#去除日
# # ps.to_timestamp()#新增 日
# df = pd.dataframe()
# df["grade"] = df["raw_grade"].astype("category")#轉換原始類別為分類資料型別
# df["grade"].cat.categories = ["very good", "good", "very bad"]#重新命名分類為更有意義的名稱
# df["grade"] = df["grade"].cat.set_categories(["very bad", "bad", "medium", "good", "very good"])#按照這個順序排列,改變原來順序
# s = df.sort(columns="grade")#排列分類中的順序,不是按詞彙排列.
# print df.groupby("grade").size()# 類別列分組,並且也顯示空類別.顯示每個類別的數量
ts = pd.series(np.random.randn(1000), index=pd.date_range('1/1/2000', periods=1000))
# ts = ts.cumsum()
# ts.plot()
# pl.show()
# df = pd.dataframe(np.random.randn(1000, 4), index=ts.index,
# columns=['a', 'b', 'c', 'd'])
# df = df.cumsum()
# df.plot()
# plt.legend(loc='best')
# pl.show()
df.to_csv('foo.csv')
pd.read_csv('foo.csv')
df.to_excel('foo.xlsx', sheet_name='sheet1')#寫入excel檔案
pd.read_excel('foo.xlsx', 'sheet1', index_col=none, na_values=['na'#讀取excel檔案
Python Pandas庫處理excel表
讀取 儲存excel表 data pandas.read excel filepath data.to excel filepath,index none index none表示不將dataframe的行索引存入excel讀取dataframe某行 列 讀取data中行索引為5 6,列索引為1 3...
Python Pandas庫與資料處理
讀取資料import pandas as pd pd.read csv 觀察資料 print dtypes 每列的資料型別 print head n 前n行資料 print tail n 後n行資料 print columns 每一列的名字 print shape 行列數 print loc 0 索...
Python Pandas庫入門及基礎操作
pandas提供高效能易用資料型別和分析工具,可以用import pandas as pd引入,通常簡寫為pd。pandas主要提供兩個資料型別 series 一維 和dataframe 多維 基於上述資料型別提供各類操作 基本操作 運算操作 特徵類操作 關聯類操作等。series型別由一組資料及與...