python資料分析專題 (15) 修改資料

2021-10-23 15:20:46 字數 1295 閱讀 1730

上次內容介紹了pandas資料索引的數字索引和行列名的方法。邏輯值索引也是一種重要的方法。在資料排序和篩選中都要用到邏輯值索引。

邏輯值索引

邏輯值包括true和false。將邏輯值放入行列中,遇到真值true則返回 ,false則跳過。不過邏輯值的數目要與行列數一致。

#邏輯值索引

x=mtcars.iloc[0:3:,0:3]

#篩選出所有行,第1列

x.loc[:,[true,false,false]]

#篩選出所有列,第1行

x.loc[[true,false,true],:]

x.iloc[[true,false,false],:]

利用邏輯值進行索引

#生成邏輯值

logic=np.repeat([true,false],repeats=16)

logic

#利用邏輯值索引

mtcars[logic]

logic=np.tile([true,false],reps=16)

logic

#篩選奇數行

mtcars.loc[logic,:]

np.repeat([1,2,3,4,5],repeats=[1,2,3,4,5])

np.tile(a=[1,2,3,4,5],reps=2)

利用python實現vlookup

vlookup是excel中非常高效的篩選資料函式。現有兩個列表,表1在200gene.csv檔案中。

表2中包含一列基因名字,在檔案121genes.csv檔案中。想需要根據表2中的id,從表1中提取資料。

python實現**

gene121=pd.read_csv(『121genes.csv』,squeeze=true)

gene121

#去除重複項

gene121.unique()

geneid=gene121.unique()

gene200=pd.read_csv(『200genes.csv』,index_col=0)

gene200.head()

gene200.index

#重新index,實現vlookup功能

gene93=gene200.reindex(index=geneid)

#去掉缺失值

gene86=gene93.dropna()

#儲存最終結果

gene86.to_csv(「gene86.csv」)

Python資料分析專題 資料探索分析

資料探索 2.統計分析 抽樣2.2 點估計與置信區間 2.3 概率分布 2.4 檢驗 2.5 卡方檢驗 2.6 anova 2.7 ab測試 2.8 態分布 按資料型別選分析方式 3.估計 se.mean axis 1 求行的均值 se.median plt.vlines se.mean ymin ...

python資料分析專題 (14) 邏輯值索引

上次內容介紹了pandas資料索引的數字索引和行列名的方法。邏輯值索引也是一種重要的方法。在資料排序和篩選中都要用到邏輯值索引。邏輯值索引 邏輯值包括true和false。將邏輯值放入行列中,遇到真值true則返回 false則跳過。不過邏輯值的數目要與行列數一致。邏輯值索引 x mtcars.il...

python資料分析

以網路爬蟲為例,網路爬蟲是乙個自動提取網頁的程式,爬蟲是搜尋引擎的第一步,也是最容易的一部。網頁搜尋,建立索引,查詢排序 用c c 效率高,速度塊,適合通用搜尋引擎做往往爬取。但是它的缺點也特別明顯 開發慢,寫起來又臭又長的。而python無論在資料分析還是在指令碼自動化編寫尚都是簡單,易學的。良好...