linux+pycharm+anaconda
#多表拼接,merge預設用兩列公共列為鏈結鍵,on來指定鏈結鍵,可為多列
import pandas as pd
import numpy as np
data1=pd.dataframe([[
20,99999,6
,"c"],
[30,999999,6
,"c++"],
[20,999994,8
,"ui"],
[27,999999,6
,"c++"],
[30,999999,6
,"python"],
[27,999999,7
,"python"]]
) data1.columns=
["年齡"
,"收入"
,"家屬數"
,"崗位"
]data2=pd.dataframe([[
"zs"
,321
,"c"],
["ls"
,421
,"c++"],
["ww"
,994
,"ui"],
["zl"
,211
,"c++"],
["tq"
,943
,"python"],
["wb"
,876
,"python"]]
,columns=
["姓名"
,"工號"
,"崗位"])
#一對一,橫向
new_data=pd.merge(data1,data2)
#多對一,橫向on指定鏈結鍵
pd.merge(data1,data2,on=
"工號"
)#多對多
pd.merge(data2,data1)
#多表鏈結,left_on,right_on,鏈結left_on==right_on的所有列
pd.merge(data1,data2,left_on=
"崗位"
,right_on=
'工號'
)#索引鏈結left_index和right_index
pd.merge(data2,data1,left_index=
true
,right_index=
true
)#索引列和普通列混用
pd.merge(data1,data2,left_index=
true
,right_on=
"工號"
)#inner內鏈結,不指明都為內連線
pd.merge(data1,data2,on=
"崗位"
,how=
"inner"
)#左鏈結以左表為基礎,右鏈結同理,找不到用nan填充
pd.merge(data1,data2,on=
"崗位"
,how=
"left"
)pd.merge(data1,data2,on=
"崗位"
,how=
"right"
)#外鏈結,取兩表並集,重複列自動加字尾,預設為["_x","_y"],suffixes=["_l","_r"]可改名
pd.merge(data2,data1,on=
"崗位"
,how=
"outer"
)#縱向拼接concat(),ignore_index=true重置索引,drop_duplicates()刪除重複值
new_data=pd.concat(
[data1,data2]
,ignore_index=
true
).drop_duplicates(
)
python基礎分析 資料分析 Python基礎
學python前要明確其使用目的。學python是為了進行資料分析,所以現階段最主要的任務是了解python的最基礎知識,然後通過運用python進行資料分析的專案,從而學會使用python。一 資料型別 1 整數 浮點數 字串 2 列表 list 2list.count obj 統計某個元素在列表...
python基礎資料分析
單樣本t檢驗 乙個連續變數與乙個數值的顯著性關係 sm.stats.descrstatsw a b ttest mean 0.1 0.1為引數 雙樣本t檢驗 乙個分類變數 二分類 與乙個連續變數的顯著性關係 方差齊性檢查 a1 creditcard exp a b 0 c a2 creditcard...
python資料分析基礎
python資料分析基礎 學資料分析之前應該明白整個資料分析的基本流程 1.明確需求與目的 2.資料收集 3.資料預處理 4.資料分析 5.編寫報告 假設檢驗,也稱為顯著性檢驗,是通過樣本的統計量,來判斷與總體引數之間是否存在差異 差異是否顯著 即我們對總體引數進行一定的假設,然後通過收集到的資料,...