•處理完前面的資料我們就得到建模資料,下一步是選擇合適模型
•在進行模型選擇之前我們需要先知道資料集最終是進行監督學習還是無監督學習
•模型的選擇一方面是通過我們的任務來決定的。
•除了根據我們任務來選擇模型外,還可以根據資料樣本量以及特徵的稀疏性來決定
•剛開始我們總是先嘗試使用乙個基本的模型來作為其baseline,進而再訓練其他模型做對比,最終選擇泛化能力或效能比較好的模型
任務一:切割訓練集和測試集
這裡使用留出法劃分資料集
•將資料集分為自變數和因變數
•按比例切割訓練集和測試集(一般測試集的比例有30%、25%、20%、15%和10%)
•使用分層抽樣
•設定隨機種子以便結果能復現
對資料集進行切割報錯
原因忘記匯入 train_test_spilt 方法
from sklearn.model_selection import train_test_split
•什麼情況下切割資料集的時候不用進行隨機選取
時間序列資料(不明白)
• 輸出模型**分類標籤
• 輸出不同分類標籤的**概率
不同模型評估方法、評估指標(待補)
資料分析 建模評價
模型搭建 模型評估 1 模型搭建 處理後的資料就是建模資料,下一步是選擇合適模型。模型選擇之前需要知道資料集最終是進行監督學習還是無監督學習。模型的選擇一方面是通過我們的任務來決定的,另一方面可以根據資料樣本量以及特徵的稀疏性來決定,開始嘗試使用乙個基本的模型來作為其baseline,進而再訓練其他...
資料分析5
具體 以及講解 將作者列表進行處理,並完成統計。具體步驟如下 圖是複雜網路研究中的乙個重要概念。graph是用點和線來刻畫離散事物集合中的每對事物間以某種方式相聯絡的數學模型。graph在現實世界中隨處可見,如交通運輸圖 旅遊圖 流程圖等。利用圖可以描述現實生活中的許多事物,如用點可以表示交叉口,點...
資料分析模型總結
1.邏輯回歸 from sklearn.linear model import logisticregression clf logisticregression penalty l1 solver saga tol 0.1,c 0.1,random state 0 clf.fit x train ...