吳恩達機器學習筆記week10

2021-08-26 20:23:22 字數 1410 閱讀 5164

本週主要講的是大規模的機器學習。其實裡邊很多內容在deeplearning.ai裡邊都講過了。所以這裡就把之前沒有的部分做個總結。

banko and brill, 2001發表的乙個文章發現,只要資料規模變大,那麼很多的演算法表現得都很好。所以其實資料是機器學習裡邊非常重要的乙個部分。

但是呢,這個argument成立的前提條件是所選的演算法是乙個bias很小的演算法。畫出learning curve就能看到了:

這塊之前都講過了。就補充乙個要點就可以了。

有的時候可能因為對cost平均的比較少,導致看不出來是不是在下降,所以可以採用把cost平均的多一些,這樣可以看出來有沒有在下降。

我們經營乙個運輸公司,每天都會有人來詢問從a到b點多少錢,時間之類的。然後我們**之後,會得到乙個結果,他們願意使用還是不願使用。

x x

是使用者特徵和服務**等。

y' role="presentation" style="position: relative;">y

y是結果,我們希望了解p(

y=1|

x,θ)p(

y=1|

x,θ)

,也就是logistic regression。問題是,每天都有這個詢價,也就是有資料集增加,我們應該怎麼辦呢?

產品搜尋。假如我們經營一家銷售平台,類似amazon把,使用者搜尋1080p 安卓手機,我們從100條結果裡邊給他10條。然後他有可能click其中乙個。每天都有這個行為,也就是y=

1 y=1

的時候發生了click事件。我們希望利用每天的資料流對模型進行訓練,怎麼辦?

這些應用場景都有乙個問題是,就是資料是以流的方式進來,不斷更新,如果我們儲存起來,那麼數量會非常巨大。

當資料量非常大的時候,其實就可以這樣一直repeat forever,然後拿乙個新的資料來gd一下。然後這個資料其實就可以丟了。

其實就是資料非常大,導致乙個電腦可能放不下,運算不過來。

如果問題能夠拆解成幾個小規模的問題,分配給幾個核心,或者幾個電腦,那麼就可以劃分之後,給幾個電腦分別做,然後再彙總。

吳恩達機器學習筆記

為了解決實際生活中的問題,我們通常需要乙個數學模型。比如,小明有乙個房子 他想賣掉房子 為了知道房子的 小明收集了該地區近兩年的房屋交易 他發現房屋 與房屋大小呈正相關,所以他畫了了一幅圖 小明的房屋大小用紅色的 代替。可見和小明房屋一樣大小的房子並不存在,而類似的房屋 又有很大差別,如此小明決定用...

吳恩達機器學習筆記

sigmoid啟用函式 0,1 x 0,y 0.5 tanh啟用函式 1,1 x 0,y 0 relu啟用函式 x 0,y 0 x 0,y x sigmoid啟用函式 除了輸出層是乙個二分類問題基本不會用它。tanh啟用函式 tanh是非常優秀的,幾乎適合所有場合。relu啟用函式 最常用的預設函式...

吳恩達機器學習筆記(1)

1 用來進行資料探勘 2 讓機器進行自我學習 3 能對使用者進行個性化定製的應用程式 4 了解人類大腦的執行機制 arthor samuel的定義 是在沒有對機器進行明確的程式設計的情況下讓機器具有自主學習的能力。學習演算法主要分為兩大類,監督學習演算法和非監督學習演算法。監督學習演算法就是明確告訴...