資料清洗之資料轉換

2021-10-03 17:09:39 字數 1887 閱讀 4977

### 1.日期格式資料處理

import numpy as np

import pandas as pd

import os

os.chdir(r'f:\csdn\課程內容\**和資料')

df = pd.read_csv('baby_trade_history.csv', encoding='utf-8',dtype=)

df.head(10)

# 對購買日期進行轉換

df['buy_date'] = pd.to_datetime(df['day'],format='%y%m%d',errors = 'coerce')#加errors防止報錯

df.dtypes

# 可以提取對應年月日,必須為timestamp才可以,具體的時間點

df['buy_date'].dt.year

時間差# 對時間進行計算

df['diff_day'] = pd.datetime.now() - df2['birthday']

df['diff_day'].head(5)

# 時間差由天數,小時和毫秒構成

# timedelta可以理解為時間差型別

df['diff_day'].dt.days# 提取天數

df['diff_day'].dt.seconds# 提取秒數

df['diff_day'].dt.microseconds# 提取毫秒數

# 可以使用pd.timedelta進行轉換

df['時間差'] = df['diff_day']/pd.timedelta('1 d') #轉換為天數

df['時間差'] = df['diff_day']/pd.timedelta('1 m') #轉換為分鐘

df['時間差'].head(5)

df['時間差'].round(decimals=3)# 顯示為3小數

df['diff_day'].astype('timedelta64[d]')# 這種方式也可以,m 代表月份數,d代表天數,y代表年份

df1 = pd.read_csv('motorcycledata.csv',encoding='gbk')#電單車資訊

df1.head(5)

df1['price'].str[0:4]# 字串切片

將**轉換為float

df1['price'].astype(float)

# 之間轉換直接報錯,需要進行字串處理

df1['**'] = df1['price'].str.strip('$')#字串相關方法

df1['**'] = df1['**'].str.replace(',','')

df1['**'] = df1['**'].astype(float)# 轉換為float資料

df1.model.head(5)

df1['location'].str.split(',') # 使用字串分割,用於對文字的處理

df1['mileage'].str.len() #計算字串長度

### 3. 高階函式資料處理

df2 = pd.read_csv('sam_tianchi_mum_baby.csv',encoding = 'utf-8',dtype =str)#嬰兒資訊

def f(x):

if '0' in x:

return '女'

elif '1' in x :

return '男'

else:

return '未知'

# 0代表女,1代表男,2代表未知

df2.head(4)

#使用map函式

df2['性別'] = df2['gender'].map()

資料清洗之資料清洗概述

從廣泛的意義上來講,資料是乙個寬泛的概念,包括但不限於 我們要了解資料清洗,就需理解資料的內涵和外延 常見的資料有 其中,比較重要比較常見的分析資料是 資料。這裡重點介紹一些關於 資料的內容。資料 資料物件由屬性 attributes 及其值 value 構成 資料的特徵 什麼是資料清洗 資料清洗是...

資料清洗(二) 資料轉換

這個比較簡單,基本上用軟體開啟電子 後選擇另存為就可以定義另存檔案的格式和編碼了,這是比較簡單快捷的。不過也有一些地方需要注意 電子 轉換為json資料稍微麻煩一點,但是也有很多方法解決了 使用mysql的命令列輸出csv檔案 select concat firstname,lastname as ...

資料清洗和轉換

實際生產環境中機器學習比較耗時的一部分 大部分的機器學習模型所處理的都是特徵,特徵通常是輸入變數所對應的可用於模型的 數值表示 大部分情況下 收集得到的資料需要經過預處理後才能夠為演算法所使用,預處理的操作 主要包括以下幾個部分 對資料進行初步的預處理,需要將其轉換為一種適合機器學習模型的表示形式,...