以下,先通過圖來說明篩選的重要性:
如果沒有對資料進行篩選:
由於裡面有很多異常值,所以我們關心的取值區間就會被異常值遮蓋,我們需要的是小於2.5的資料,因此,我們通過篩選,得到的圖為:
上述兩張圖所採用的資料是相同的,只不過對資料集通過布林值進行了篩選,**如下:
df_sum=df_sum[df_sum[4]<=2.5]
靈感來自df[df.notnull()]是輸出數列中不是空值的值,是輸出了df[true]的所有值,因此我們可以考慮將所需的篩選條件寫入df[ ]來實現資料篩選的功能
data=pd.series([1,na,3.5,na,7])
print(data)
#0 1.0
1 na
2 3.5
3 na
4 7.0
#print(data[data.notnull()])
#0 1.0
2 3.5
4 7.0
#
df_sum是資料集,[ ]中是df_sum[4]<2.5是df_sum**的列索引為4的列資料要求小於2.5,判斷為true,則將該結果賦值給df_sum實現資料篩選功能dataframe的duplicated方法返回的是乙個布林值陣列,這個陣列反應的是每一行是否存在重複情況:
data.duplicated()
而drop_duplicates返回的是dataframe,內容是duplicated返回陣列中為false的部分:
data.drop_duplicates()
這裡也可以通過布林值判斷來進行改寫:
data[data.duplicated()==false]
等效於
data.drop_duplicates()
可以看出,通過布林值判斷對資料進行篩選是非常有用的方法 python布林類入門 Python的布林型別
前面我們了解到,布林型別是python的基礎資料型別,布林型別只有true和false兩種值,本節課我們學習布林型別的集中運算。與運算只有兩個布林值都為 true 時,計算結果才為 true。true and true true true and false false false and true...
利用SQL SERVER對比兩張表的資料一致性
create table dbo a id int null,name varchar 50 null,varchar 50 null,age int null on primary create table dbo b id int null,name varchar 50 null,varcha...
perl和python的資料型別對比
perl的資料型別有 1.標量 標量是包括數字 字串 日期等,但perl沒有細分這些字串 標量宣告的時候用 標識 my var a 3 2.陣列,perl的陣列是用 標識的,乙個變數前面有 標識這是個陣列 my array 1 wang tian zhong 3 3.hash hash標識是用 my...