簡單的介紹人工智慧的機器學習

2021-09-08 11:03:27 字數 2840 閱讀 6612

來自 (估計有點老了,不過文字不多,看一眼也無妨)

very brief introduction to machine learning for ai

1、智慧型

智慧型的概念可以被以很多種方式定義。這裡根據一些標準(例如對於大多數動物來說的生存和繁衍)我們將它定義成能夠做出正確決策的能力,為了得到更好的決策,我們需要知識,對於其中一種知識形式來說,就是操作,即可以處理感知資料,然後用這些資訊來做決策。

2、人工智慧

計算機已經能夠具有一些智慧型了,這都歸功於人類已經涉及到的所有專案和那些我們認為很有用的事情(基本上是那些能夠讓計算機做出正確決策的部分)。但是還是有許多任務動物和人類能夠輕鬆解決而仍然超出計算機可做到的範圍之外事情,在21世紀初期,許多任務都標榜自己是人工智慧,包含了許多感知和控制的任務,可是為什麼我們還是沒法寫出這些任務的專案程式呢?我認為主要是因為我們還不知道如何顯式(正式的,標準的)的表達這些任務,即使我們的大腦(耦合著我們的身體)可以容易做到。這些任務涉及到的知識當前都是隱晦的,但是我們可以通過資料和例子來得到這些任務的許多資訊(例如,觀察乙個人在給定特定的問題或者輸入的時候會得到什麼)。我們如何讓機器也有這樣的智慧型?使用資料和例子來建立可操作的知識就是我們所謂的機器的學習了。

3、機器學習

這裡只說很小的一些概念,一些與這個主題密切相關的部分。

4、學習的規範化

首先,給出最通用的學習的數學式框架。給定一些訓練樣本:

這裡zi 表示的是從未知過程p(z)中得到的取樣樣本。同樣還需要給定乙個損失函式 l ,這個函式的會將決策函式 f  和樣本 z ,作為它的引數,而且會返回乙個實值標量。我們想要在這個未知的生成過程p(z)背景下,最小化這個 l(f,z)的期望值。

5、有監督學習

在有監督學習中,每個樣本都是乙個(輸入,目標)對:z = (x,y),f 將x 作為引數。最通用的講解例子就是:

a)回歸:y是乙個實值標量或者向量,f 的輸出是和y的值一樣的集合,並通常使用平方誤差來作為損失函式:

b)分類:y是乙個有限整數(例如,乙個符號)對應乙個類別索引,我們通常將負條件似然log作為損失函式,用

這裡我們有約束條件:

6、無監督學習

在無監督學習中,我們需要學習乙個函式 f 來幫助我們描述這個未知的分布p(z)。有時候 f 直接就是乙個有關p(z)自身的估計(被稱為密度估計)。然而,在許多其他情況下 f  是乙個試圖描述密度聚集的位置。聚類演算法可以將輸入空間劃分成不同的區域(通常以乙個原型樣本或者中心點作為區域的中心)。許多聚類演算法生成乙個硬分割槽(例如,k-means演算法)然而其他的生成的是軟分割槽(例如:高斯混合模型gmm),也就是對每個z指派乙個概率值去標識它屬於每個類的概率。另一種無監督演算法就是為z 構建乙個新的表徵,許多dl演算法就屬於這一種,同樣的pca也是。

7、區域性泛化

學習演算法的大量工作主要是利用乙個單一原則來得到泛化:區域性泛化。它假設如果輸入樣本 xi 很靠近輸入樣本 xj ,那麼相對應的輸出 f(xi)和 f(xj)應該也很近。這是實現區域性插值的基本原則。這個原則很有用,但是他也有很多限制:要是我們需要推斷呢?或者說,要是目標未知函式有比訓練樣本個數更多的變數呢?在這種情況下區域性泛化就不能work了,因為我們最少需要和目標函式涉及的變數一樣多的樣本,從而能夠覆蓋所有的變數而且能夠通過這個原則來生成。這個問題與被稱為維數災難的問題密切相關,而且有以下幾個原因。當輸入空間是高維的,輸出的變化很可能按照輸入維度的指數變化。例如,設想我們希望在每個輸入變數

(輸入向量的每個元素)

的10個不同的值之間做出區分,而且我們關心這些n個變數的所有的10^n

個組合。只用區域性泛化,我們需要至少觀察這些10^n個 組合的至少各乙個取樣,這樣才能將結論推廣到所有變數。

8、分布式對比:區域性表徵和非區域性泛化

當翻譯到這一段的時候,發現居然有人翻譯過了。

下面這最後一段非原創:

來自這裡,好吧其實是我懶了,這段不翻了。)

乙個簡單的整數的n二進位制本地表示是連續的b位元序列,並且,除了第個n位元都是0。一種簡單的整數的二進位制分布式表示是一系列使用通常的二進位制編碼的log_2(b)個位元。在這個例子中我們看出,分布式表示的效率較本地表示有指數的提高。一般地,對於學習演算法,分布式表示具有在相同自由引數個數的情況下捕獲更多(指數級)變化的潛力。因此分布式表示具有更好的generalization的潛力,因為學習理論指出需要的樣本數量是o(b)的,自由度的有效維數是o(b)的。

另乙個對於分布式表示和本地表示的區別的說明 (相應的,本地和非本地的generalization)是關於聚簇clustering和pca或者rbm的。前者是本地的,而後者是分布式的。使用k-means聚簇演算法我們為每個prototype維護乙個引數向量,也就是說,每個由學習者劃分的區域乙個。使用pca演算法,我們通過跟蹤主要變化方向來標誌其分布。現在設想乙個簡化的pca的解釋,在這裡我們最關心的是在每個變化的方向上,資料在該方向上的投影是否超過或低於某一門限。在d個方向上,我們能夠區分2^d個不同的區域。rbm演算法與此類似,它定義d個超平面,並用乙個位元來標誌在平面一側或另一側。乙個rbm將乙個輸入區域同乙個標誌位的組合聯絡起來(在神經網路的說法中,這些位元位被稱為隱藏單元)。rbm的引數個數大約等於這些位元位相對輸入維度的倍數(times,應該是倍數吧。。。)。再一次我們發現rbm或者pca(分布式表示)可以表示的區域個數可以按照引數的指數規律增長,而傳統的聚簇演算法(例如,k-means或者高斯混合,都是本地表示)可以表示的區域個數進按照引數個數線性增長。另一種看待角度是,意識到rbm可以按照隱藏單元的組合歸納相應的新區域,即使這裡還沒有樣本被觀測到。這對於聚簇演算法是不可能的(除了在那些周圍區域已經有樣本被觀察到的區域)。

簡單的介紹人工智慧的機器學習

來自 估計有點老了,不過文字不多,看一眼也無妨 very brief introduction to machine learning for ai 1 智慧型 智慧型的概念可以被以很多種方式定義。這裡根據一些標準 例如對於大多數動物來說的生存和繁衍 我們將它定義成能夠做出正確決策的能力,為了得到更...

人工智慧機器學習

機器學習是從資料中自動分析獲得規律 模型 並利用規律對未知資料進行 資料處理 首先將所有資料放在一起,然後將其順序打亂。由於順序不是判斷酒水的依據,我們並不期望順序影響到模型學習到的內容。換言之,我們判斷一種酒是紅的還是啤的,並不需要知道前一種或是接下來有什麼酒出現。這時,可以著手繪出視覺化的資料分...

機器學習和人工智慧

機械人和人工智慧這個領域確實已進入了瓶頸階段,因為現在的存在的各種人工智慧和機器裝置,都是人工程式設計控制的,再精密的動作都是在按照人工方式模擬下進行的,因此已經進入誤區。試想下 我們生下來就被遺傳了1 1 2的計算功能嗎?一生下來就能有意識的抬起手臂嗎?而目前再簡單的人工智慧都可以完成,但這僅僅侷...