import pandas as pd
import numpy as np
from ipython.core.interactiveshell import interactiveshell
interactiveshell.ast_node_interactivity = "all"
# 檔案目錄,相對路徑
input_path = './'
# 檔案讀取行數
#max_rows = 100000
#資料處理
#巡遊車gps
taxigps2019 = pd.read_csv(input_path + 'taxigps20190603.csv', #nrows=max_rows,
dtype = )
#taxigps2019.info()
taxigps2019 = taxigps2019[taxigps2019.columns[::-1]]
taxigps2019.sort_values(by=['carno','gps_time'], inplace=true)
taxigps2019.reset_index(inplace=true, drop=true)
#taxigps2019.head()
#巡遊車訂單
taxiorder2019 = pd.read_csv(input_path + 'taxiorder20190603.csv', #nrows=max_rows,
dtype = )
taxiorder2019 = taxiorder2019.rename(columns=)
taxiorder2019.sort_values(by=['carno','geton_date'], inplace=true)
taxiorder2019.reset_index(inplace=true, drop=true)
#網約車gps
wycgps2019 = pd.read_csv(input_path + 'wycgps20190603.csv', #nrows=max_rows,
dtype=)
wycgps2019 = wycgps2019.rename(columns=)
wycgps2019 = wycgps2019[wycgps2019.columns[::-1]]
wycgps2019.sort_values(by=['carno','position_time'], inplace=true)
wycgps2019['biz_status'] = wycgps2019['biz_status'].fillna(-1).astype(np.int8)
wycgps2019['encrypt'] = wycgps2019['encrypt'].fillna(-1).astype(np.int8)
#網約車訂單
wycorder2019 = pd.read_csv(input_path + 'wycorder20190603.csv', #nrows=max_rows,
dtype=)
wycorder2019 = wycorder2019.rename(columns=)
wycorder2019.sort_values(by=['carno','dep_time'], inplace=true)
#統計巡遊車gps資料在20190603中包含多少倆計程車
print("1.")
print(taxigps2019['carno'].nunique())
#統計網約車gps資料在20190603中包含多少倆網約車
print("2.")
print(wycgps2019['carno'].nunique())
#統計巡遊車訂單資料在20190603中上車經緯度的最大最小值
print("3.1")
print(taxiorder2019['geton_longitude'].max())
print(taxiorder2019['geton_latitude'].max())
print("3.2")
print(min(taxiorder2019[taxiorder2019['geton_longitude']>0]['geton_longitude']))
print(min(taxiorder2019[taxiorder2019['geton_latitude']>0]['geton_latitude']))
#統計網約車訂單資料集在20190603中下車經緯度最常見的位置
print("4.")
for item in taxiorder2019['getoff_latitude']:
round(item,3)
for item in taxiorder2019['getoff_longitude']:
round(item,3)
position=pd.concat([taxiorder2019['getoff_longitude'],
taxiorder2019['getoff_latitude']])
print(position.value_counts())
第四題最後的結果還是不太對
20161230 資料分析入門01
1.比例vs比率。比例是指在總體中各部分的數值佔全部數值的比重,通常反映總體的構成和結構。比率是反映乙個整體中各部分之間的關係。2.同比是歷史同時期進行比較得到的數值,該指標主要反映的是事物發展的相對情況 環比是指與前乙個統計期比較得到的數值,該指標主要反映的是事物逐期發展的情況。3.資料清洗工作。...
資料分析 numpy 01
import numpy as np arr1 np.array 1 2,3 陣列的秩 軸的個數稱為秩 軸 axes 是陣列的維度 print arr1.ndim 結果為 1 結論 一維陣列秩為1,二維陣列秩為2 陣列的維度 print arr1.shape,len arr1.shape 3,2 返...
資料分析 numpy陣列 01
預備知識 能夠乙個接乙個地儲存在計算機儲存器的一塊連續區域內的表示方法稱為陣列array。資料分析 numpy numpy是python語言的乙個拓展程式庫,支援大量的維度陣列與矩陣運算,而且numpy針對於陣列運算提供大量的數學函式庫。numpy 是乙個執行速度非常快的數學庫,主要用於陣列計算 1...