上次內容介紹了pandas資料索引的數字索引和行列名的方法。邏輯值索引也是一種重要的方法。在資料排序和篩選中都要用到邏輯值索引。
邏輯值索引
邏輯值包括true和false。將邏輯值放入行列中,遇到真值true則返回 ,false則跳過。不過邏輯值的數目要與行列數一致。
#邏輯值索引
x=mtcars.iloc[0:3:,0:3]
#篩選出所有行,第1列
x.loc[:,[true,false,false]]
#篩選出所有列,第1行
x.loc[[true,false,true],:]
x.iloc[[true,false,false],:]
利用邏輯值進行索引
#生成邏輯值
logic=np.repeat([true,false],repeats=16)
logic
#利用邏輯值索引
mtcars[logic]
logic=np.tile([true,false],reps=16)
logic
#篩選奇數行
mtcars.loc[logic,:]
np.repeat([1,2,3,4,5],repeats=[1,2,3,4,5])
np.tile(a=[1,2,3,4,5],reps=2)
利用python實現vlookup
vlookup是excel中非常高效的篩選資料函式。現有兩個列表,表1在200gene.csv檔案中。
表2中包含一列基因名字,在檔案121genes.csv檔案中。想需要根據表2中的id,從表1中提取資料。
python實現**
gene121=pd.read_csv(『121genes.csv』,squeeze=true)
gene121
#去除重複項
gene121.unique()
geneid=gene121.unique()
gene200=pd.read_csv(『200genes.csv』,index_col=0)
gene200.head()
gene200.index
#重新index,實現vlookup功能
gene93=gene200.reindex(index=geneid)
#去掉缺失值
gene86=gene93.dropna()
#儲存最終結果
gene86.to_csv(「gene86.csv」)
Python資料分析專題 資料探索分析
資料探索 2.統計分析 抽樣2.2 點估計與置信區間 2.3 概率分布 2.4 檢驗 2.5 卡方檢驗 2.6 anova 2.7 ab測試 2.8 態分布 按資料型別選分析方式 3.估計 se.mean axis 1 求行的均值 se.median plt.vlines se.mean ymin ...
python資料分析專題 (15) 修改資料
上次內容介紹了pandas資料索引的數字索引和行列名的方法。邏輯值索引也是一種重要的方法。在資料排序和篩選中都要用到邏輯值索引。邏輯值索引 邏輯值包括true和false。將邏輯值放入行列中,遇到真值true則返回 false則跳過。不過邏輯值的數目要與行列數一致。邏輯值索引 x mtcars.il...
python資料分析
以網路爬蟲為例,網路爬蟲是乙個自動提取網頁的程式,爬蟲是搜尋引擎的第一步,也是最容易的一部。網頁搜尋,建立索引,查詢排序 用c c 效率高,速度塊,適合通用搜尋引擎做往往爬取。但是它的缺點也特別明顯 開發慢,寫起來又臭又長的。而python無論在資料分析還是在指令碼自動化編寫尚都是簡單,易學的。良好...