pandas 索引去重 pandas(一)

2021-10-13 09:18:41 字數 1800 閱讀 1135

1.pandas基本函式

2.pandas 描述統計函式

在進行統計描述時,pandas對三個資料物件的軸引數規定如下:

series: 沒有軸引數

dataframe: 「index」 (axis=0, default), 「columns」 (axis=1)

panel: 「items」 (axis=0), 「major」 (axis=1, default), 「minor」 (axis=2)

統計描述引數如下:

3.pandas 資料框增、刪、改、查、去重、抽樣基本操作

pandas的索引函式主要有三種:

loc 標籤索引,行和列的名稱

iloc 整型索引(絕對位置索引),絕對意義上的幾行幾列,起始索引為0

ix 是 iloc 和 loc的合體

(1)行操作

選擇某一行

選擇多行

條件篩選

普通條件篩選

另外條件篩選還可以集邏輯運算子 | for or, & for and, and ~for not

isin

非索引列使用isin

索引列使用isin

結合any()/all()在多列索引時

where

dataframe.where() differs from numpy.where()的區別

當series物件使用where()時,則返回乙個序列

抽樣篩選

dataframe.sample(n=none, frac=none, replace=false, weights=none, random_state=none, axis=none)

當在有權重篩選時,未賦值的列權重為0,如果權重和不為1,則將會將每個權重除以總和。random_state可以設定抽樣的種子(seed)。axis可是設定列隨機抽樣。

增加行插入行pandas裡並沒有直接指定索引的插入行的方法,所以要自己設定

line = pd.dataframe(,index=[1])

df = pd.concat([df.loc[:0],line,df.loc[1:]]).reset_index(drop=true)#df.loc[:0]這裡不能寫成df.loc[0],因為df.loc[0]返回的是series

a b c

0 1.0 a a

1 -- -- --

2 2.0 b b

3 3.0 c c

4 4.0 4 4

交換行刪除行

注意在以時間作為索引的資料框中,索引是以整形的方式來的。

dfl = pd.dataframe(np.random.randn(5,4), columns=list('abcd'), index=pd.date_range('20130101',periods=5))

print df1

(2)列操作

選擇某一列

選擇多列

增加列,如果是已有列,那就是賦值

交換兩列的值

刪除列1)直接del df[『column-name』]

2)採用drop方法,有下面三種等價的表示式:

df= df.drop(『column_name』, 1);

df.drop(『column_name』,axis=1, inplace=true)

df.drop([df.columns[[0,1,]]], axis=1,inplace=true)

還有一些其他的功能:

切片df.loc[::,::]

選擇隨機抽樣df.sample()

去重.duplicated()

查詢.lookup

Lucene 索引去重

在使用lucene過程中,會發現當我們為新增新的document時,會產生重複現象 兩次新增同乙個document 畢竟lucene中沒有像資料庫中一樣,有鍵可以區分。不過我們可以通過為document建立類似於鍵的域,來防止新增重複的document。document document new d...

pandas mysql索引 Pandas重建索引

重新索引會更改dataframe的行標籤和列標籤。重新索引意味著符合資料以匹配特定軸上的一組給定的標籤。可以通過索引來實現多個操作 重新排序現有資料以匹配一組新的標籤。在沒有標籤資料的標籤位置插入缺失值 na 標記。示例import pandas as pd import numpy as np n...

numpy 索引多個 numpy和pandas

numpy numpy的陣列為ndarray ndarray與python列表的不同 eg 6.7.5 8.0.1.沒有 隔開,6.0表示為6.整合了c 進行運算 numpy的目的就是讓你不寫迴圈,所以效率很高 pandas 資料結構 series dataframe 索引物件 series 一組n...