初始的train和test 可以通過data = pd.concat([train,test],ignore_index=true,sort=false)進行合併,為後面處理會簡化
後期的拆開:
train = data.loc[data['source']=='train']
test = data.loc[data['source']=='test']
data.dtypes 將特徵資料大概表現出來
data.value_counts():將資料不同取值出現的數值和次數顯示出來
data.describe(): 表示各特徵的平均數,方差等
缺失值處理
drop:drop中的inplace為true和false的差別為是否改變原有的dataframe值,如果為false要改變值需要另外賦予新的陣列,
fillna:缺失值可以用data.fillna(0,inplace=true)快速填充nan所寫的資料(取中間數可以呼叫median()函式)
一唯的分布可以用data.boxplot(column='所要顯示的一維資料')
注:主要包含六個資料節點,將一組資料從大到小排列,分別計算出他的上邊緣,上四分位數q3,中位數,下四分位數q1,下邊緣,還有乙個異常值。
如
在區間 q3+1.5δq, q1-1.5δq 之外的值被視為應忽略(farout)。
一維分布也可以用條形圖來表示(這裡是xgboost一部分特徵顯示)
var_to_encode = ['所需編碼的特徵']
for col in var_to_encode:
data[col] = le.fit_transform(data[col])
print(list(le.classes_))
注:print函式主要是為了可以看出編碼所對應的特徵值
特徵值的ont-hot編碼:
data = pd.get_dummies(data, columns=var_to_encode)
data.columns
人大影印資料處理程式 補充篇
說明 1 人大影印資料的處理是本人自己使用的一套程式,因為看到論壇上有關於全文檢索的討論所以就不顧程式設計水平的菜鳥級差,也將其公布於公。2 人大影印全文光碟資料在各大學圖書館應該可以取得。config.php3 hostname localhost dbusername dbname dbpass...
numpy pandas 資料處理操作總結
開啟檔案 a pd.read csv a.txt header none sep t header控制檔案中是否包含列名,sep控制劃分方式,可使用正規表示式 檔案合併 c pd.concat a,b 列相同的兩個檔案縱向連線 檔案排序 a a.sort values col1 col2 先根據列 ...
資料處理 流資料處理利器
流處理 stream processing 是一種計算機程式設計正規化,其允許給定乙個資料序列 流處理資料來源 一系列資料操作 函式 被應用到流中的每個元素。同時流處理工具可以顯著提高程式設計師的開發效率,允許他們編寫有效 乾淨和簡潔的 流資料處理在我們的日常工作中非常常見,舉個例子,我們在業務開發...