本系列文章,將針對python機器學習庫scikit-learn來展開,旨在幫助那些剛開始接觸機器學習專案,但是看不懂裡面各種模型如何使用的小夥伴。我將介紹了一些scikit-learn中使用的機器學習詞彙及常用模型,並指導小夥伴們自己動手搭建、訓練自己的模型。
教你訓練乙個機器學習模型:scikit-learn入門教程(二)
通常,機器學習問題會考慮一組具有n個樣本的資料(如下圖一),然後嘗試**未知資料的屬性。
可以看到,下列資料具有n行,代表有n個樣本。每行代表乙個樣本,樣本中的每乙個數字,我們把它叫做「特徵」或者「屬性」。
舉個例子,上面的資料收集了n個女生的身材資訊,乙個女生的樣本資訊包括[身高,體重,年齡······]若干特徵。
現在,我們要利用這些資料,**出這n個女生,哪些是美女。如果我們用列表來表示對這n個女生的**結果,用1表示是美女,0表示不是,那麼我們最終求出來的可能是這樣乙個列表:
[1,0,0,1,0,``````]
這個列表表示,第乙個女生是美女,第二第三個女生不是······
所以,機器學習做的事情大概就是這樣的。給你一堆資料,然後讓你用各種各樣高大上的模型,來**出一些結果。
通常,機器學習問題可以分為以下型別:
無監督學習
無監督學習:上面已經提到了,無監督學習,就是給題目(資料)給你,但是卻不給答案(**結果)給你,讓你摸瞎做題(ˉ▽ˉ;)…。
通常,我們需要將資料集分成兩部分來評估演算法。一部分是測試集,我們在該訓練集上我們學習一些屬性;我們將另乙個集合稱為測試集,在其上測試學習的屬性。
什麼?看不懂?那就還是舉個栗子吧。例如,我給了你n個女生的資料(訓練集),讓你用這n個資料,訓練了乙個演算法出來。現在,你為了檢測一下你這個演算法到底能不能正確**美女,所以我再給了你m個女生的資料(測試集),用來測試一下你演算法的效果。
懂了吧?訓練集就是你平時做的訓練題,測試集就是給你的考試題,它可以檢測你的演算法訓練效果到底怎麼樣!
Scikit learn快速入門
基礎入門的知識,我就不重複造輪子了。直接上 想看 詳細解釋的,看上面的部落格。匯入模組 from future import print function 匯入sklearn中的資料集 from sklearn import datasets 匯入測試集 from sklearn.cross val...
scikit learn分類問題入門例項(1)
本文以scikit learn自身的digits資料集為例,闡釋分類問題 首先利用pca進行降維 然後訓練模型 from sklearn.cross validation import train test split from sklearn.bayes import gaussiannb ran...
機器學習入門框架scikit learn
分類,回歸,聚類,資料降維,模型選擇和資料預處理 scikit learn分類演算法主要包括 支援向量機 svm 最近鄰,邏輯回歸,隨機森林,決策樹以及多層感知器 mlp 神經網路等等。scikit learn回歸演算法主要包括 支援向量回歸 svr 脊回歸,lasso回歸,彈性網路 elastic...