python中和pandas中資料型別對應關係如下:
如果資料是純淨的資料,可以轉化為數字
astype基本也就是兩種用作,數字轉化為單純字串,單純數字的字串轉化為數字,含有其他的非數字的字串是不能通過astype進行轉化的。
需要引入其他的方法進行轉化,也就有了下面的自定義函式方法
自定義函式進行轉化
replace()方法去掉字串裡面的一些不想要的東西
def
convert_currency
(var)
:"""
convert the string number to a float
_ 去除$
- 去除逗號,
- 轉化為浮點數型別
"""new_value = var.replace(
",","")
.replace(
"$","")
return
float
(new_value)
詳細見: pandas資料預處理 缺失值
缺失值的分類 按照資料缺失機制可分為 不可忽略的缺失 non ignorable missing nim 或非隨機缺失 not missing at random,nmar,or,missing not at random,mnar 如果不完全變數中資料的缺失既依賴於完全變數又依賴於不完全變數本身,...
pandas資料預處理與透視表
importpandasaspd importnumpyasnp titanic survival pd.read csv titanic train.csv 統計age 列有多少值為空 age titanic survival age age is null pd.isnull age age n...
基於pandas進行資料預處理
參加kaggle資料探勘比賽,就第乙個賽題titanic的資料,學習相關資料預處理以及模型建立,本部落格關注基於pandas進行資料預處理過程。包括資料統計 資料離散化 資料關聯性分析 import pandas as pd import numpy as np train df pd.read c...