Datawhale 資料分析打卡1

2021-10-23 11:47:52 字數 2245 閱讀 2873

參加了由datawhale舉辦的小組學習活動,學習內容為資料分析,記錄下第一章的所學內容

在資料處理中,第一步通常都需要匯入資料,並進行對資料的初步預覽

導入庫匯入所需資料庫:import numpy as np; import pandas as pd

載入資料pd.read_csv(『filename』), csv為檔案格式,可替換為其他格式:tsv;xlsx

逐塊讀取有時資料庫過大,為了節約記憶體需要分批次讀取:pd.read_csv(『filename』, chunksize=int)

修改column索引名稱pd.read_csv('names=[『a』,『b』,…],index_col=『乘客id』,header=0)

初步觀察前(n+1)個資料:head(n),後(n+1)個資料tail(n), 判斷資料是否為空isnull()

儲存資料to_csv(『filename』)

資料型別pandas中有兩個資料型別dataframe, series; series比較適合乙個屬性對應乙個資料, dataframe則適用於乙個例項具有多種屬性,很符合資料探勘所需要的資料模式

檢視dataframe資料的每列的項根據資料的列索引可以很容易實現 data[『column_name』]

將多餘的列的刪除del data[『column_name』]

將某些列暫時隱藏data.drop([『columb_name』],axis=1)

若想完全刪除 data.drop([『columb_name』],axis=1, inplace = true)

顯示滿足某條件的資料

criteria = data[『column_name』]> x

此時criteria所含元素資料型別皆為bool

顯示滿足條件的資料(bool=true): desired = data[criteria]

但此時index為old index, 若想得到此資料集某一行的值,需要重新設定index: desird.reset_index(drop=true); drop=true將old index隱藏

6.顯示資料集中某行某列的值data.loc[[index_x,index_y, index_z…],[』column_x『,『columb_name_y』…]]

也可以都用索引值 函式:iloc

midage.iloc[[100,105,108],[2,3,4]]

對資料值進行排序一組資料dataframe.sort_values(by=『column_name』, ascending=false)

預設 ascending = true 公升序, false 降序

兩組資料排序(先對第乙個排序)

dataframe.sort_values(by=[『column_name1』,『column_name2』], ascending=false)

索引排序行索引公升序排序:dataframe.sort_index()

列索引公升序排序 dataframe.sort_index(axis = 1)

算術計算兩個dataframe運算後,會返回乙個新的dataframe,對應的行和列的值會相加,沒有對應的會變成空值nan

檢視dataframe資料資訊

函式:dataframe.describe()

輸出:count : 樣本資料大小

mean : 樣本資料的平均值

std : 樣本資料的標準差

min : 樣本資料的最小值

25% : 樣本資料25%的時候的值

50% : 樣本資料50%的時候的值

75% : 樣本資料75%的時候的值

max : 樣本資料的最大值

通過對資料集進行初步的處理和預覽以及資料排序和運算,可以對資料內容有個大概的了解,能夠判斷出哪些feature對結果有較大的影響,哪些與結果無關。這些判斷結果對後續模型的建立起著積極作用

資料分析打卡03

1 資料的合併 1 concat方法 將資料橫向合併在一起 resul up text left up.join text right up 將left和right拼接在一起,列拼接 3 merge方法 df.merge left,right,how inner on none,left on no...

Datawhale 程式設計打卡 2

氣泡排序 def maopao paixu a l len a for i in range l 1 遍歷的是排好序的個數 for j in range l i 1 遍歷的是待排序的個數 if a j a j 1 temp a j a j a j 1 a j 1 temp print a retur...

DataWhale之資料分析練習5 作者資訊關聯

任務說明 學習主題 作者關聯 資料建模任務 對 作者關係進行建模,統計最常出現的作者關係 學習內容 構建作者關係圖,挖掘作者關係 學習成果 作者知識圖譜 圖關係挖掘 資料處理步驟 將作者列表進行處理,並完成統計。具體步驟如下 將 第一作者與其他作者 非第一作者 構建圖 使用圖演算法統計圖中作者與其他...