python資料分析003 資料的合併篩選排序

2022-08-03 18:27:17 字數 1738 閱讀 5757

一. 資料的合併

1.資料合併主要包括下面兩種操作:

軸向連線(concatenation):pd.concat()可以沿乙個軸將多個dataframe物件連線在一起,形成乙個新的dataframe物件。

融合(merging):pd.merge()方法可以根據乙個或多個鍵將不同dataframe中的行連線起來。

2.concat:

pd.concat([df1,df2],axis=0,join='outer',ignore_index=true)  如果兩個表的index都沒有實際含義,使用ignore_index引數,置true,重新整理乙個新的index。

3.merge:

merge(left, right, how='inner', on=none)

二.資料的篩選

1.篩選某一列資料大於100, bools記錄了每一行是否符合篩選條件,是乙個series物件,其中的值是bool型別。

2.多個條件並集篩選, 且& 或 | 

三.資料的排序

1.使用sort_index()、sort_values()兩個方法對資料進行排序,並且這兩個方法series和dataframe都支援。

dataframe的sort_index( )方法是按照行索引進行排序,sort_values()可以指定具體列進行排序。

2.read_excel()中的引數index_col='country code'作用是在讀取檔案的時候指定country code這一列資料為行索引。

inplace=true引數和我們之前見過的作用一樣,用來控制是否直接對原始資料進行修改。

ascending可以控制排序的順序,預設值為true從小到大排列,當它被設定為false的時候就可以實現倒序排列。

3.sort_values():

by:決定了是按資料中的哪一列進行排序,將需要按照某列排序的列名賦值給by即可。

ascending=false:將資料按照從大到小的順序排列。

inplace=true:用來控制是否直接對原始資料進行修改。

四.總結

五. 資料的分組

1.按某一列分組

groups = df.groupby('xx')

2.用groupby的size方法可以檢視分組後每組的數量,並返回乙個含有分組大小的series

print(groups.size())

3.檢視分組group.groups的結果是乙個字典,字典的key是分組後每個組的名字,對應的值是分組後的資料

4.group.get_group('f')這個方法可以根據具體分組的名字獲取,每個組的資料。

5.獲取'f'組的最大年紀,最小年紀以及平均年齡    

7.根據多個列分組group=df.groupby(['country','gender'])

8.group.size()返回的結果中發現索引值是多層的,獲取多層索引值:    

df1 = group.size()

size = df1['austria']['f']

9.分組後資料的統計    

003 理解資料分析過程

第 1 步 提問 你要麼獲取一批資料,然後根據它提問,要麼先提問,然後根據問題收集資料。在這兩種情況下,好的問題可以幫助你將精力集中在資料的相關部分,並幫助你得出有洞察力的分析。第 2 步 整理資料 你通過三步來獲得所需的資料 收集,評估,清理。你收集所需的資料來回答你的問題,評估你的資料來識別資料...

python資料分析

以網路爬蟲為例,網路爬蟲是乙個自動提取網頁的程式,爬蟲是搜尋引擎的第一步,也是最容易的一部。網頁搜尋,建立索引,查詢排序 用c c 效率高,速度塊,適合通用搜尋引擎做往往爬取。但是它的缺點也特別明顯 開發慢,寫起來又臭又長的。而python無論在資料分析還是在指令碼自動化編寫尚都是簡單,易學的。良好...

python資料分析

陣列間的算術運算 npwhere pandas的使用 np.random.rand 3,4 產生乙個3行4列的矩陣 0 1之間的 in 32 data1 1,2,3,4.0 in 34 arr1 np.array data1 in 35 arr1 out 35 array 1.2.3.4.in 37...