資料分析時間資料處理

2021-09-24 11:07:11 字數 1421 閱讀 6163

from datetime import datetime

now = datetime.now()

print(now)

print('年:{},月:{},日:{}'.format(now.year, now.month, now.day))

diff = datetime(2019, 4, 4, 21) - datetime(2019, 1, 25, 0)

print(type(diff))

print(diff)

print('經歷了{}天,{}秒'.format(diff.days, diff.seconds))

用pandas讀取的列的資料並不知道是string型別還是datetime型別

datetime -> str

1. str(datetime_obj)

2. datetime.strftime()

dt_obj = datetime(2017, 3, 4)

str_obj = str(dt_obj)

print(type(str_obj)

print(str_obj)

//有可能其他國家的datetime並不是年月日,

//所以我們將其格式化為我們相要的格式

str_obj2 = dt_obj.strftime('%d-%m-%y')

str -> datetime

1. datetime.strptime() //需要指定時間表示的形式

dt_str = '2017-02-18'

dt_obj2 = datetime.strptime(dt_str, '%y-%m-%d')

print(type(dt_obj2))

print(dt_obj2)

2. dateutil.parser.parse() //可以解析大部分時間表示形式

from dateutil.parser import parse

dt_str3 = '2017/02/18'

dt_str2 = '02-18-2017'

dt_obj3 = parse(dt_str2)

print(type(dt_obj3))

print(dt_obj3)

3. pd.to_datetime() //可以處理缺失值和空字串

//通常在pandas裡處理一列資料,當資料型別為object時

import pandas as pd

s_obj = pd.series(['2017/02/18', '2017/02/19', '2017/02/20'], name = 'course_time')

print(s_obj)

s_obj2 = pd.to_datetime(s_obj)

print(s_obj2)

資料分析之海量資料處理

bitmap 桶注意 1gb 210 3 230 2 3 2 210 3 230 1073741824b 11億b 1.有乙個1g大小的乙個檔案,裡面每一行是乙個詞,詞的大小不超過16位元組,記憶體限制大小是1m,要求 返回頻數最高的100個詞。1 分而治之 hash對映 順序讀檔案中對於每個詞x取...

資料分析之資料處理(四)

1.0 1標準化 1 建立資料 資料標準化 import pandas as pd import numpy as np import warnings warnings.filterwarnings ignore 0 1標準化 將資料的最大值最小值記錄下來,並通過max min作為基數 即min ...

Python 空間資料處理

from geopy.geocoders import nominatim geolocator nominatim location geolocator.geocode 中國人民大學 print location.address 中國人民大學,人民大學北路,稻香園南社群,海淀區,北京市,1008...