缺失值:資訊(暫時)無法獲取,丟失,衝突矛盾而不可用,獲取代價大
刪除的時候可以設定乙個閾值x
如果這乙個資料缺失值》x則丟棄好,但費錢如果這乙個特徵有缺失資料數》x則丟棄
用乙個特徵的所有的空都用特殊值unknown來填充,形成另一種概念,但是很可能會導致嚴重的資料偏離
連續型用均值,離散型用眾數
相當於k鄰近算的k等於1。
就是在所有除了當前資料的缺失值其他都完整的資料中中找乙個最像的來填充
和上面一樣,就是在最相似的k個中。
效果最好,但是代價比較大,尤其是在連續值的資料當中
把完整的資料建立乙個模型出來,然後**空缺
1、在缺失值未隨機缺失的情況下,假設完整的資料樣本是正確的。2、然後對這些資料的分布對缺失值做極大似然估計
1、e步:每次用上一次迭代得到的引數計算完整資料的對數似然函式和條件期望2、m步:用極大化對數似然函式以確定引數
3、兩次迭代之間的引數小於閾值則退出
適用於大資料,但是可能會陷入區域性極值,收斂不快,計算複雜
對離散值:通過尋找屬性之間的關係來對缺失值填充。
據說是直接在資料集上進行挖掘,暫時不知道和特殊值填充有什麼區別
不推薦人工和特殊值
對於大多數資料情況而言:
刪除、均值(眾數)《熱卡回歸《熱卡 pandas使用nan not a number 表示浮點和非浮點陣列中的缺失資料,python內建的none值也會被當做na處理,pandas物件上的所有描述統計都排除了缺失資料。na處理方法 方法 說明dropna 根據各標籤的值是否存在缺失資料對軸標籤進行過濾,可通過閾值調節對缺失值的容忍度 ... 之前寫過一篇文章缺失值視覺化處理 missingno 主要介紹了缺失值的檢視,今天聊一下,出現了缺失值後我們要做的後續工作,就是缺失值的處理。首先附上幾個 data資料集 data.isnull 缺失值判斷 是缺失值返回true,否則範圍false data.isnull sum 缺失值計算 返回每... 資料清洗主要是刪除原始資料集中的無關資料 重複資料,平滑雜訊資料,去除與資料探勘主題無關的資料,處理缺失值 異常值等 缺失主要為完全隨機缺失,隨機缺失和非隨機缺失 資料的缺失是隨機的,資料的缺失不依賴於任何不完全變數或完全變數。資料的缺失不是完全隨機的,即該類資料的缺失依賴於其他完全變數。資料的缺失...缺失值處理
缺失值處理
缺失值處理