注:我將重點根據《machine learning: an algorithmic perspective》一書,對ml方向的一些方法做一些討論並說說我個人的心得。鄙人初入此方向,希望和大家**,求拍磚。
之前寫了一點資料探勘的某些內容的方法,也說到資料探勘是個寬領域,說她寬,是覺得現在這個大資料時代,特別是電腦到處有,資料獲取形式十分多樣化,資料生產非常廉價,因此就成全了很多小的資料分析型別的公司打破大公司的壟斷,茁壯成長,也就是為什麼說資料分析師是未來的乙個非常**的職業了,因為不愁沒地方要,這樣的人才非常具有吸引力。
資料探勘主要**如何使機器具備分析大規模資料的能力,進而得到我們想要得到的知識,這些知識有很多方面,比如對資料進行分類。但是這就有人疑問了,分類在機器學習裡也有啊,怎麼這裡重疊了呢?其實不然,dm主要關注對於資料的處理和處理結果,比如我們dm要對大規模資料進行處理,確保可以進行我們預期的分類訓練,最後得到的分類結果也是dm關注的知識;但是ml更注重如何構建分類器,裡面的資料模型是什麼樣的。用最通俗的說法,機器通過資料學習知識。因此,dm、ml是相輔相成的。
早起的機器學習的思路其實是從人、動物這些得到的,類似於仿生學裡的觀點,事實證明,我們現在就是讓計算機不斷模擬人,甚至試圖超越人(當然,某些方面的確是超越了,我可能一輩子都算不完圓周率的100000位)。當我們想讓計算機也會學習的時候,我們就考慮乙個問題,人是怎麼學習的?
從生物學的觀點看,人的大腦是由許多神經元構成的,神經元有很多態別,這裡如果對於乙個簡單的神經元而言,它負責傳遞資訊(可能是電、可能是化學物質),很多其他神經元給它資訊,當這些刺激積累到乙個閥值的時候,這個神經元又將資訊發射出去。因此,乙個簡單的數學模型可以這樣表述,
x = (x1, x2, ... , xm)代表m個其他神經元的輸入,w1...,wm代表權重,這個具有生物學意義,如果xm那個神經元是關於吃飯的,x1那個是關於妹子的,如果班長是個屌絲、吃貨,那麼估計x1那個w1權重會比較高,因此,從w1來的資訊更容易突破閥值。當然,這只是個比方,不一定乙個神經元代表乙個具體事物。那麼看,這就是個最簡單的加權和的數學模型。
h = w1 * x1 + w2 * x2 +... + wm * xm;
sgn(h) = 1 if h >= 閥值
sgn(h) = 0 if h < 閥值
這是個符號函式,大家可以想象成啟用模式,夠刺激了,就啟用了,不夠刺激,再高的h也是0
但是,這個模型能說明啥呢?只能說明這些。:)不過我們的腦子肯定不是單細胞的,而是乙個神經網路。如果就目前單個神經元而言,學習能力差很多,至少我們高階機器學習要處理的線性二分類的perceptron分類器就是這樣乙個簡單問題,乙個神經元就夠了。因為乙個神經元就兩種結果,0, 1。有趣的是,這篇日誌的世界裡總是這樣的二元認知:人有班長、女人;電腦就是0,1, 神經元就是激發態和平常態。:)
但是如果變成網路就不一樣了。後面的日誌會進一步討論。
簡單的神經元模型
其函式表達如下所示 y b i xiwi y b ix iwi其中,w w 表示權值,x role presentation style position relative x x表示輸入。y y 表示輸出。線性神經元模型中,輸入xi可以被看作是 來自其他神經元的動作電位,該動作電位引起突觸的興奮。...
神經網路 II 神經元模型
人工神經網路的生物原型是大腦,人腦中的神經網路是乙個非常複雜的組織,其基本組成單位是神經元 神經細胞 的大腦中估計有1000億個神經元之多。十九世紀末二十世紀初,在解剖學家 生物學家 醫學家的共同努力下,神經元的組成結構便被研究清楚,乙個神經元主要由四部分構成 神經元怎麼發揮作用呢?其實神經元是個訊...
神經網路入門 神經元演算法
目前機器學習 深度學習在業界使用的越來越廣泛,做為乙個有著技術追求的it人,我覺得有必要學習和了解一下這塊的知識,今天就從最簡單的單層神經網路開始介紹。在介紹人工神經網路之前,首先認知下神經元。神經元不知道大家還有印象這個圖嗎?這個是出現在我們生物課本中的一幅圖。乙個神經元的組成基本就是上圖這些東西...