def
function
(a,b):
if (a > 0) & (b == 0):
return
"只做夜班"
elif (a == 0) & (b > 0):
return
"只做白班"
elif (a == 0) & (b == 0):
return
"未做單"
else:
return
"混合"
function(x.夜間上班時長,
x.日間上班時長),axis = 1)
例:有某工廠工人上班時間的總時長,我們要根據上班總時長對工人進行分層,資料以分鐘登記
具體分層規則:
1、0小時–未做單;
2、0-5小時(不含5小時)–兼職;
3、5-10小時(含5小時,不含10小時)–休閒;
4、10-12(含10小時,不含12小時)–全職;
5、12小時以上(含12小時)–勤奮。
bins = [min(data['上班時長'])-1,0,300,600,720,max(data['上班時長'])+1]
labels = ['未做單','兼職','休閒','全職','勤奮']
data['全職情況'] = pd.cut(data['上班時長'],
bins,labels=labels)
例:有兩個資料框,乙個是司機的做單資料,乙個是包含司機的車牌資訊,我們需要將司機的做單資料中合併上車牌號。
彙總 = pd.merge(a,b[['司機id','車牌號']],
left_on='id',right_on='id',how='left')
資料處理中需要知道的基本資料知識
1 資料型別 定量 定性 和其它特性。資料型別決定可以使用何種工具和技術來分析資料。新的應用領域和新的資料型別推動新的資料探勘研究。2 資料質量 注重理解和提高資料質量,將改進分析結果的質量,大多數時候好的資料比好的演算法更重要。通常的資料質量問題 存在雜訊和離群點 資料遺漏 不一致和重複 資料有偏...
文字資料處理彙總
1.匹配中文 曾經看到說 w 可以,但親測無效。轉向編碼的形式 u4e00 u9fa5 也不行,只能是 u4e00 u9fcc 2.不匹配某個字串 中間不包含str1 pattern str2 開頭不包含 pattern str 結尾不包含str1.嗎 或者str1 嗎 3.零寬斷言 1.正向肯定預...
分析Python處理基本資料《三》
先貼上 6 該文字裡,輸出在每一天發表tweets最多的使用者 dateline by user for line in lines dateline line keys created at split 0 username line keys username if dateline by us...