以阿里二手車交易****訓練資料為例
#coding:utf-8
#匯入warnings包,利用過濾器來實現忽略警告語句。
import warnings
warnings.filterwarnings('ignore')
import pandas as pd
import matplotlib.pyplot as plt
import missingno as msno
## 1) 載入訓練集和測試集;
path = 'd:\python_test\二手車****/data/'
train_data = pd.read_csv(path+'used_car_train_20200313.csv', sep=' ')
# nan視覺化
missing = train_data.isnull().sum()
missing = missing[missing > 0]
missing.sort_values(inplace=true)
missing.plot.bar()
plt.show()
'''了解哪些列存在 「nan」, 並可以把nan的個數列印,
主要的目的在於 nan存在的個數是否真的很大,如果很小一般選擇填充,
如果使用lgb等樹模型可以直接空缺,讓樹自己去優化,
但如果nan存在的過多、可以考慮刪掉
'''# 視覺化看下預設值
'''白線越多,代表缺失值越多。
'''msno.matrix(train_data.sample(250))
plt.show()
msno.bar(train_data.sample(1000))
plt.show()
筆記 資料缺失視覺化
coding utf 8 匯入warnings包,利用過濾器來實現忽略警告語句。import warnings warnings.filterwarnings ignore import pandas as pd import numpy as np import matplotlib.pyplot...
caffemodel權值視覺化
通過前面的學習,我們已經能夠正常訓練各種資料了。設定好solver.prototxt後,我們可以把訓練好的模型儲存起來,如lenet iter 10000.caffemodel。訓練多少次就自動儲存一下,這個是通過snapshot進行設定的,儲存檔案的路徑及檔名字首是由snapshot prefix...
Python 資料視覺化
資料視覺化指的是通過視覺化表示來探索資料,它與資料探勘緊緊相關,而資料探勘指的是使用 來探索資料集的規律和關聯。資料集可以是用一行 就能表示的小型數字列表,也可以是數以吉位元組的資料。漂亮地呈現資料關乎的並非僅僅是漂亮的。以引人注目的簡潔方式呈現資料,讓人能夠明白其含義,發現資料集中原本未意識到的規...