今天先大致講下機器學習的理論基礎,基礎術語和一些概念性的定**釋等。
首先是基礎術語:
(1)資料集(data sets):是乙個記錄關於乙個事件或者物件的集合,也就是我們的所需要的資料的乙個集合,包括特徵(feature)或者屬性(attribute)等,當然如果是監督學校的話也包括標籤(label)。
(2)特徵向量(feature vector):如果把資料集放到excel中,那麼每行就是乙個例項(instance),每列就是他的特徵屬性,那麼該例項的特徵集合所組成的就是特徵向量。因為就是1*n的乙個向量。
(3)訓練(trainning):這個名詞應該是最熟悉不過的了,訓練就是說把資料集中的一部分拿出來當作訓練集(trainning sets),將每個例項都放入我們預先設定好的演算法中,通過每乙個例項,演算法都會調節他自己的引數來進行學習訓練,這樣他就能在新的資料中能夠更好的發揮效果。
(4)**(prediction):**和測試意思相同,都是指在調節好的模型中用測試集中的資料去進行檢驗,看該模型是否能夠有效的進行**。**的過程不會調節模型的引數
(5)假設空間(hypothesis sets):這個空間其實也是乙個集合,這個集合中是我們想要用來訓練的各種演算法模,通過這個空間,我們就能進行遍歷來尋找最好的模型,這也就是我們的目的所在。
(6)歸納偏好(inductive bias):其實就是什麼模型更好的問題,比方說在假設空間中找到多個在訓練集上面效果比較好的模型,那麼我們該如何選擇模型呢。這就叫做歸納偏好,比如說擬合函式,如果用2次和3次函式擬的結果相同,根據奧卡姆剃刀原則(這就是一種偏好),我們就會選擇 相對比較簡單的2次函式。
python 學習 初入爬蟲
1.爬取網頁內容 import urllib.request as ur import chardet as ct response ur.urlopen html response.read result ct.detect html encoding html html.decode resul...
初入元學習(一)
何為 元學習 元學習,就是讓機器學會如何學習!何為神經網路?神經網路就是模仿人類神經一層一層處理資訊,把輸入資料經過一層一層對映,最後得到結果。那麼人類如何學習呢?分類 回歸這些明顯是下游任務,上游任務是學習如何學習。這個就很泛化了,每個人的學習方式不同,那麼如何才能抽象出學習方式?那麼,我們來回顧...
初入職場 實習那些事 2
實習第二週開始了 第一天 今天沒精神 感覺做什麼都沒活力 以為可以擺脫那舊專案 就專案專案早上檢查過關了 之前心裡一直不想深入 因為已經過時的技術讓我覺得沒有學習的動力 期待和同事協同工作 但是捷哥又給力兩個需求 乙個是簡單的許可權新增 我在後台設乙個session jsp簡單限制某些按鈕的實現 另...