1.
原始表
create資料清洗後的表table ml_100k (userid int, movieid int, rating int
, unixtime string)
row format delimited
fields terminated by'
\t'lines terminated by'
\n'stored
as textfile;
create3.資料匯入table ml_100k2 (userid int, movieid int, rating int, weekday int
) row format delimited
fields terminated by'
\t'lines terminated by'
\n'stored
as textfile;
4.指令碼編寫和指令碼載入
clean_ml_100k.py
import然後 hdfs dfs -putsysimport
datetime
for line in sys.stdin: #
接收輸入
line =line.strip()
userid, movieid, rating, unixtime = line.split('\t'
) weekday = datetime.datetime.fromtimestamp(float(unixtime)).isoweekday() #
轉化unixtime時間戳為日期時間,獲取對應的星期值
print('
\t'.join([userid, movieid, rating, str(weekday)])) #
輸出清洗後的資料
add5.資料清洗+轉儲file
/home/centos/clean_ml_100k.py;
insert overwrite table然後我就失敗了ml_100k2
select
transform (userid, movieid, rating, unixtime)
--輸入值(基表)
using '
pythonclean_ml_100k.py'--
使用指令碼清洗
as (userid, movieid, rating, weekday) --
輸出值(子表)
from ml_100k;
使用python進行資料清洗
1 在資料清洗前,我們需要先檢視資料概況,了解我們需要清洗的資料大概包含什麼字段 每個字段下面資料範圍大概如何,資料清洗常用到的函式和語法分別有 info函式 用於了解資料總體情況,包括行數,列數,各列名稱等,比如 shape函式 用於檢視資料矩陣的行和列 describe函式 了解datafram...
Python 使用Pandas進行資料預處理
利用pandas庫中的get dummies函式對類別型特徵進行啞變數處理。get dummies語法 pandas.get dummies data,prefix none,prefix sep dummy na false,columns none,sparse false,drop first...
如何使用Python與Mysql進行資料互動
自己的夢想需要你自己去實現 python 在mysql的官網獲取python與mysql的互動手冊mysql官方手冊 pythontodatabase.py import mysql.connector cnx mysql.connector.connect user root password 6...