機器學習第一課

2021-10-04 05:52:12 字數 586 閱讀 6280

過擬合就是,通過訓練集進行訓練的時候,模型學習了太多的背景雜訊,讓模型的複雜度高於了真實模型(比如看到齒距型的葉子,就覺得不是葉子);

欠擬合是指,模型在訓練集上進行學習的時候,效果就不是很好,沒有充分學習到其中的資訊量,複雜度低於真實模型,得到的模型泛化能力差(比如看到綠色,就覺得是葉子)

模型評估指標有查全率、查準率

正則化上模型結構風險最小化策略的實現,目的是降低模型的複雜度,屬於模型擬合情況最優的一種補充。(比如過多的特徵選擇可能會讓模型的損失函式很小,但是會耗費巨大的計算成本,也會容易導致過擬合),是防止過擬合的一種情況

交叉驗證即在訓練模型之前,隨機將總的資料集分為k個互斥的子集,使用其中k-1個子集作為訓練集,剩餘1個為驗證集。遍歷所有子集組合後,比較所有模型擬合結果,選擇驗證集上擬合效果最佳的模型。目的是盡可能地利用資料的資訊,構建最優模型

分析問題-獲取資料-探索、清洗資料-特徵工程-建模-調參-模型上線/定期更新

每一列是乙個特徵,每一行是乙個樣本的資料是結構化資料(如果乙個樣本有多行資料,則是非結構化資料)

對非結構化資料,需要進行特徵工程轉化為結構化資料

機器學習總結 第一課

首先有這麼一句話,資料和特徵決定了機器學習的上限,而演算法和模型只是逼近這個上限而已 嗯嗯,資料處理和特徵工程很重要,大概佔據70 的工作量,而模型選擇 模型調參 模型融合佔據30 的工作量。接下來看看資料分析的流程 資料的分布,比如分類問題中,正負樣本均衡很重要,即正樣本數 負樣本數接近1 1比較...

機器學習的第一課

期中考完又是乙個新的開始,這學期除了acm還想花一些時間在其他方面,本來想做一些nlp的專案的,但看了一點發現根本看不下去,好多需要有機器學習的基礎。再加上我想往ai方向讀研。所以到b站上找了吳恩達老師的公開課,打算每週花上幾個小時自學,順便補補數理基礎。說來也慚愧,線代概統已經不記得多少了,ai又...

python學習第一課

1.單行注釋 2.或 多行注釋運算子的型別運算子的優先順序運算子tips 參考變數型別 算術運算子 print 1 1 2,加 print 2 1 1,減 print 3 4 12,乘 print 3 4 0.75,除 print 3 4 0,整除 地板除 print 3 4 3,取餘 print ...