資料分析時None和NaN區別

2021-08-21 10:50:00 字數 856 閱讀 8046

在pandas中, 如果其他的資料都是數值型別, pandas會把none自動替換成nan, 甚至能將s[s.isnull()]= none,和s.replace(nan, none)操作的效果無效化。 這時需要用where函式才能進行替換。

none能夠直接被匯入資料庫作為空值處理, 包含nan的資料匯入時會報錯。

numpy和pandas的很多函式能處理nan,但是如果遇到none就會報錯。

none和nan都不能被pandas的groupby函式處理,包含none或者nan的組都會被忽略。

等值性比較的總結:(true表示被判定為相等)

none對none

nan對nan

none對nan

單值true

false

false

tuple(整體)

true

true

false

np.array(逐個)

true

false

false

series(逐個)

false

false

false

assert_equals

true

true

false

series.equals

true

true

true

merge

true

true

true

由於等值性比較方面,none和nan在各場景下表現不太一致,相對來說none表現的更穩定。

為了不給自己惹不必要的麻煩和額外的記憶負擔。 實踐中,建議遵循以下三個原則即可

資料探勘和其他資料分析的區別

1.資料探勘和統計的區別 統計著重於驗證和測試假設,也就是說在你開始分析前你知道模式或模型是什麼 資料探勘則著眼於生成假設以及在沒有指導的情況下發現新模式。這也就是目前國內很多公司都有自己的統計分析平台,比如關於erp crm 和業務的統計分析平台,這些統計分析平台都和各自的固有業務緊密聯絡,園子裡...

資料分析和機器學習的區別

從資料本身來看 資料分析 處理的資料是交易資料 eg 使用者訂單 使用者訪問款 使用者的通話簡訊 使用的少量資料 取樣分析 資料量過大可採用取樣分析 機器學習 使用的海量資料 ps 關注 行為資料 導致資料量劇增 所以就普通資料公司變成大資料公司了。23333333 全量分析 通過全量分析對使用者的...

資料分析和展示

匯入matplotlib中的pyplot import matplotlib.pyplot as plt 為了使matplotlib圖形能夠內聯顯示 matplotlib inline 匯入詞云庫 from wordcloud import wordcloud,imagecolorgenerator...