一、問題的引入
回歸分析大多屬於監督學習的一種方法。這種方法主要是根據從貼有便簽的理算資料通,通過統計等方法得到數學模型,然後將模型運用於**或者分類。通常是多維的,如果存在高維空間時,可通過核函式等方法優化處理。
例如房屋的價錢和很多因素有關,而每乙個因素也成為乙個維度。這裡和多臂***問題(multi-armed bandit problem)中的***的臂數類似。
這裡我們簡化為題分析,只提出房屋的價錢和面積有關聯。資料如下:
其打點圖為:
假設這個資料集中又再次新增了乙個房屋的面積資料,想要知道這個房屋的價錢的估計值,該怎麼辦呢?
我們可以通過已知的資料去盡量準確的擬合這些資料,當這個新的房屋面積輸入進來,我們便可以利用這條擬合曲線求出近似值。
圖中,紅色的曲線就是原有資料擬合出來的,而新加入的點大概在3500左右,而根據紅色曲線,能夠得到估計值在500左右。
首先給出一些概念和常用的符號。
房屋銷售記錄表:訓練集(training set)或者訓練資料(training data),是我們流程中的輸入資料,一般稱為x
房屋銷售價錢:輸出資料,一般稱為y
擬合的函式(或者稱為假設或者模型):一般寫作y=h(x)
訓練資料的條目數:一條訓練資料是由一對輸入資料和輸出資料組成的輸入資料的緯度n(特徵的個數)
這個例子的特徵是兩維的,結果時一維的,然而回歸方法能夠解決多維特徵,結果時一維多離散值或者一維連續值的問題。
三、學習過程
如同上面給出乙個新的房屋面積資料,根據之前的訓練資料擬合出的曲線能夠的到新的輸入資料的估計值,而得到這條擬合曲線的過程就是學習過程。下圖給出一種學習過程流程圖。
四、線性回歸
我們通常為了簡化模型,將其曲線的數學模型假定為線性的:
式中的h()即為需要得到的學習模型,也就是通過學習過程得到公式中的,在上面的那個例子中就好比房間的面積。但是當問題為多維的時候,比如還有房屋的朝向,房屋的地理位置,房屋的樓層等等因素。
通常我們也習慣於將其寫成矩陣的形式
為了評估我們所選擇的曲線是否良好,換句話說就是學習得到的是否比較好,我們通常使用一種叫做損失函式來描述好壞程度。
上方是乙個比較典型的錯誤函式,這個函式就是對估計值xi與真實值yi之間差的平方作為損失估計函式,而乘上1/2是為了方防止在求導的時候係數消失的問題。
如何調整theta使得損失函式取得最小值有很多方法,其中有最小二乘法等等。
機器學習 學習筆記1
什麼是機器學習?監督學習 supervised learning 如神經網路,提供資料和資料的標籤進行訓練 非監督學習 unsupervised learning 只提供資料而不提供對應的標籤進行訓練 半監督學習 利用少量有標籤樣本和大量無標籤樣本進行訓練,來對無標籤樣本進行分類 強化學習 rein...
機器學習學習筆記1
周志華機器學習 flyu6 time 2016 6 12 假設空間 歸納偏好 監督學習 所謂的監督學習其實就是在資料集d中有格式為 x,y 的形式,可以看出我們有明確的目標值或者標籤 y 與x的資料集有關關聯關係。我們可以通過尋找x與y的關係來確定乙個關係化的模型。在這個模型的學習中,我們是通過真是...
機器學習筆記 1
1 機器學習的定義 如果乙個程式可以在任務t上,隨經驗e的增加,效果p隨之增加,則這個程式可以從經驗中學習。過程 單個神經元 2 基於tensorflow的nn 神經網路 用張量表示資料,用計算圖搭建神經網路,用會話執行,優化線上的權重 引數 得到模型。2.1 張量 多維陣列 列表 階 表示張量的維...