python資料分析專題（15）修改資料

上次內容介紹了pandas資料索引的數字索引和行列名的方法。邏輯值索引也是一種重要的方法。在資料排序和篩選中都要用到邏輯值索引。

邏輯值索引

邏輯值包括true和false。將邏輯值放入行列中，遇到真值true則返回，false則跳過。不過邏輯值的數目要與行列數一致。

#邏輯值索引

x=mtcars.iloc[0:3:,0:3]

#篩選出所有行，第1列

x.loc[:,[true,false,false]]

#篩選出所有列，第1行

x.loc[[true,false,true],:]

x.iloc[[true,false,false],:]

利用邏輯值進行索引

#生成邏輯值

logic=np.repeat([true,false],repeats=16)

logic

#利用邏輯值索引

mtcars[logic]

logic=np.tile([true,false],reps=16)

logic

#篩選奇數行

mtcars.loc[logic,:]

np.repeat([1,2,3,4,5],repeats=[1,2,3,4,5])

np.tile(a=[1,2,3,4,5],reps=2)

利用python實現vlookup

vlookup是excel中非常高效的篩選資料函式。現有兩個列表，表1在200gene.csv檔案中。

表2中包含一列基因名字，在檔案121genes.csv檔案中。想需要根據表2中的id，從表1中提取資料。

python實現**

gene121=pd.read_csv(『121genes.csv』,squeeze=true)

gene121

#去除重複項

gene121.unique()

geneid=gene121.unique()

gene200=pd.read_csv(『200genes.csv』,index_col=0)

gene200.head()

gene200.index

#重新index，實現vlookup功能

gene93=gene200.reindex(index=geneid)

#去掉缺失值

gene86=gene93.dropna()

#儲存最終結果

gene86.to_csv(「gene86.csv」)

Python資料分析專題資料探索分析

資料探索 2.統計分析抽樣2.2 點估計與置信區間 2.3 概率分布 2.4 檢驗 2.5 卡方檢驗 2.6 anova 2.7 ab測試 2.8 態分布按資料型別選分析方式 3.估計 se.mean axis 1 求行的均值 se.median plt.vlines se.mean ymin ...

python資料分析專題（14）邏輯值索引

上次內容介紹了pandas資料索引的數字索引和行列名的方法。邏輯值索引也是一種重要的方法。在資料排序和篩選中都要用到邏輯值索引。邏輯值索引邏輯值包括true和false。將邏輯值放入行列中，遇到真值true則返回 false則跳過。不過邏輯值的數目要與行列數一致。邏輯值索引 x mtcars.il...

python資料分析

以網路爬蟲為例，網路爬蟲是乙個自動提取網頁的程式，爬蟲是搜尋引擎的第一步，也是最容易的一部。網頁搜尋，建立索引，查詢排序用c c 效率高，速度塊，適合通用搜尋引擎做往往爬取。但是它的缺點也特別明顯開發慢，寫起來又臭又長的。而python無論在資料分析還是在指令碼自動化編寫尚都是簡單，易學的。良好...

python資料分析專題 （15） 修改資料

Python資料分析專題 資料探索分析

python資料分析專題 （14） 邏輯值索引

python資料分析

相關推薦

python資料分析專題（15）修改資料

Python資料分析專題資料探索分析

python資料分析專題（14）邏輯值索引