python資料分析基礎 表拼接

2021-10-03 23:11:34 字數 1927 閱讀 9213

linux+pycharm+anaconda

#多表拼接,merge預設用兩列公共列為鏈結鍵,on來指定鏈結鍵,可為多列

import pandas as pd

import numpy as np

data1=pd.dataframe([[

20,99999,6

,"c"],

[30,999999,6

,"c++"],

[20,999994,8

,"ui"],

[27,999999,6

,"c++"],

[30,999999,6

,"python"],

[27,999999,7

,"python"]]

) data1.columns=

["年齡"

,"收入"

,"家屬數"

,"崗位"

]data2=pd.dataframe([[

"zs"

,321

,"c"],

["ls"

,421

,"c++"],

["ww"

,994

,"ui"],

["zl"

,211

,"c++"],

["tq"

,943

,"python"],

["wb"

,876

,"python"]]

,columns=

["姓名"

,"工號"

,"崗位"])

#一對一,橫向

new_data=pd.merge(data1,data2)

#多對一,橫向on指定鏈結鍵

pd.merge(data1,data2,on=

"工號"

)#多對多

pd.merge(data2,data1)

#多表鏈結,left_on,right_on,鏈結left_on==right_on的所有列

pd.merge(data1,data2,left_on=

"崗位"

,right_on=

'工號'

)#索引鏈結left_index和right_index

pd.merge(data2,data1,left_index=

true

,right_index=

true

)#索引列和普通列混用

pd.merge(data1,data2,left_index=

true

,right_on=

"工號"

)#inner內鏈結,不指明都為內連線

pd.merge(data1,data2,on=

"崗位"

,how=

"inner"

)#左鏈結以左表為基礎,右鏈結同理,找不到用nan填充

pd.merge(data1,data2,on=

"崗位"

,how=

"left"

)pd.merge(data1,data2,on=

"崗位"

,how=

"right"

)#外鏈結,取兩表並集,重複列自動加字尾,預設為["_x","_y"],suffixes=["_l","_r"]可改名

pd.merge(data2,data1,on=

"崗位"

,how=

"outer"

)#縱向拼接concat(),ignore_index=true重置索引,drop_duplicates()刪除重複值

new_data=pd.concat(

[data1,data2]

,ignore_index=

true

).drop_duplicates(

)

python基礎分析 資料分析 Python基礎

學python前要明確其使用目的。學python是為了進行資料分析,所以現階段最主要的任務是了解python的最基礎知識,然後通過運用python進行資料分析的專案,從而學會使用python。一 資料型別 1 整數 浮點數 字串 2 列表 list 2list.count obj 統計某個元素在列表...

python基礎資料分析

單樣本t檢驗 乙個連續變數與乙個數值的顯著性關係 sm.stats.descrstatsw a b ttest mean 0.1 0.1為引數 雙樣本t檢驗 乙個分類變數 二分類 與乙個連續變數的顯著性關係 方差齊性檢查 a1 creditcard exp a b 0 c a2 creditcard...

python資料分析基礎

python資料分析基礎 學資料分析之前應該明白整個資料分析的基本流程 1.明確需求與目的 2.資料收集 3.資料預處理 4.資料分析 5.編寫報告 假設檢驗,也稱為顯著性檢驗,是通過樣本的統計量,來判斷與總體引數之間是否存在差異 差異是否顯著 即我們對總體引數進行一定的假設,然後通過收集到的資料,...