numpy pandas 資料處理操作總結

開啟檔案

a = pd.read_csv(
'a.txt'
, header =
none
, sep =
'[_\t]+'
)

header控制檔案中是否包含列名，sep控制劃分方式，可使用正規表示式

檔案合併

c = pd.concat(
[a,b]
)

列相同的兩個檔案縱向連線

檔案排序

a = a.sort_values(
['col1'
,'col2'
])

先根據列』col1』的值進行排序，'col1』值相同的再根據』col2』的值進行排序

數值統計

b = a[
'col1'
].value_counts(
)

統計a 'col1』這一列的數值分布

輸出b有：b.index為a[『col1』]中的各個值，b.values為對應每個值出現的次數

isin

a[
'col1'
].isin(b)

判斷a 'col1』這一列的每一項是否在b中

分布直方圖

a = np.array([22
,87,5
,43,56
,73,55
,54,11
,20,51
,5,79
,31,27
]) plt.hist(a, bins =[0
,20,40
,60,80
,100]) 
plt.title(
"histogram"
) plt.show(
)

判斷是否為空：

pd.isnull(a)

設定為空：

a[
'col1'][
0]= np.nan

去掉重複行

b = np.array(
list
(set([
tuple
(t)for t in a]))
)

歸一化

y = np.linalg.norm(x, axis=
1, keepdims=
true
)x = x / y

陣列拼接

np.concatenate(
(a,b)
,axis=0)
np.concatenate(
(a,b)
,axis=
1)

axis控制拼接的軸，對於2維陣列，0表示縱向拼接，1表示橫向拼接

資料處理流資料處理利器

流處理 stream processing 是一種計算機程式設計正規化，其允許給定乙個資料序列流處理資料來源一系列資料操作函式被應用到流中的每個元素。同時流處理工具可以顯著提高程式設計師的開發效率，允許他們編寫有效乾淨和簡潔的流資料處理在我們的日常工作中非常常見，舉個例子，我們在業務開發...

爬蟲資料處理 pandas資料處理

使用duplicated 函式檢測重複的行，返回元素為布林型別的series物件，每個元素對應一行，如果該行不是第一次出現，則元素為true keep引數指定保留哪一重複的行資料 dataframe替換操作使用df.std 函式可以求得dataframe物件每一列的標準差資料清洗清洗重複值清...

資料處理 pandas資料處理優化方法小結

資料處理時使用最多的就是pandas庫，pandas在資料處理方面很強大，整合了資料處理和資料視覺化。pandas的視覺化使用的是matplotlib。回到主題計算資料的某個欄位的所有值，對其欄位所有值進行運算處理的字段資料為時間戳，需要計算該時間戳距離現在的時間，單位為天。一般方法使用現在的...

numpy pandas 資料處理操作總結

資料處理 流資料處理利器

爬蟲 資料處理 pandas資料處理

資料處理 pandas資料處理優化方法小結

相關推薦

資料處理流資料處理利器

爬蟲資料處理 pandas資料處理