使用python指令碼進行資料清洗(1)

2022-05-07 07:42:12 字數 1732 閱讀 1527

1.

原始表

create

table ml_100k (userid int, movieid int, rating int

, unixtime string)

row format delimited

fields terminated by'

\t'lines terminated by'

\n'stored

as textfile;

資料清洗後的表

create

table ml_100k2 (userid int, movieid int, rating int, weekday int

) row format delimited

fields terminated by'

\t'lines terminated by'

\n'stored

as textfile;

3.資料匯入

4.指令碼編寫和指令碼載入

clean_ml_100k.py
import

sysimport

datetime

for line in sys.stdin: #

接收輸入

line =line.strip()

userid, movieid, rating, unixtime = line.split('\t'

) weekday = datetime.datetime.fromtimestamp(float(unixtime)).isoweekday() #

轉化unixtime時間戳為日期時間,獲取對應的星期值

print('

\t'.join([userid, movieid, rating, str(weekday)])) #

輸出清洗後的資料

然後 hdfs dfs -put

add

file

/home/centos/clean_ml_100k.py;

5.資料清洗+轉儲

insert overwrite table

ml_100k2

select

transform (userid, movieid, rating, unixtime)

--輸入值(基表)

using '

pythonclean_ml_100k.py'--

使用指令碼清洗

as (userid, movieid, rating, weekday) --

輸出值(子表)

from ml_100k;

然後我就失敗了

使用python進行資料清洗

1 在資料清洗前,我們需要先檢視資料概況,了解我們需要清洗的資料大概包含什麼字段 每個字段下面資料範圍大概如何,資料清洗常用到的函式和語法分別有 info函式 用於了解資料總體情況,包括行數,列數,各列名稱等,比如 shape函式 用於檢視資料矩陣的行和列 describe函式 了解datafram...

Python 使用Pandas進行資料預處理

利用pandas庫中的get dummies函式對類別型特徵進行啞變數處理。get dummies語法 pandas.get dummies data,prefix none,prefix sep dummy na false,columns none,sparse false,drop first...

如何使用Python與Mysql進行資料互動

自己的夢想需要你自己去實現 python 在mysql的官網獲取python與mysql的互動手冊mysql官方手冊 pythontodatabase.py import mysql.connector cnx mysql.connector.connect user root password 6...