機器學習 資料探勘及其他

2021-05-27 13:42:07 字數 1221 閱讀 4752

在本書中,我們不斷地提及「智慧型」,到底什麼是「智慧型」?我們說的是人工智慧嗎?或者是機器學習?它跟資料探勘和軟計算有什麼關係?在學術界,對於本書中所介紹的內容的精確定義也已經爭論了好幾年。從實踐的角度看,這些概念並沒有實質性的區別,更多的是指應用環境的不同。本書融合了上述所有領域的精華,讓我們逐個來看看吧。

以其首字母縮寫ai而廣為人知的人工智慧是乙個起源於20世紀50年代的計算領域。最初,ai的目標是極具野心的,試圖開發出能像人類一樣思考的機器(russell and norvig, 2002; buchanan, 2005)。隨著時間的推移,目標變得更加可行和具體。遙不可及的目標不得不屈服於殘酷的現實,但是我們之前提及的很多領域都源自人工智慧,比如機器學習、資料探勘、軟計算等。

現在,即使是最先進的計算智慧型系統也無法理解四歲小孩所閱讀的小故事。所以,如果我們無法讓計算機「思考」,是否能讓計算機「學習」呢?可以教會計算機根據動物的特徵來判斷物種嗎?識別不良的次級房貸呢?更複雜的事情,諸如語音識別並用自然語言答覆,計算機能做到嗎?所有這些問題的答案都是肯定的。然而你有可能會好奇,「這些問題到底說明了什麼?」。解決上面這些問題,乙個最簡單的方法就是在計算機中構建乙個龐大的資料表,把所有可能的問題的答案都存放在裡面,然後在回答問題時只需在表中搜尋現成的答案即可。

當然,這個查詢資料表的方法是可行的,但其中也有一些問題。首先,在實際的產品系統中,包含所有問題和答案的表肯定是非常大的。所以,從效率的角度考慮,這肯定不是乙個最優的解決方案。其次,如果資料庫中沒有某個問題的答案,就無法給出回答,如果真有使用者問這些問題,你就只能用「敏感詞」來搪塞他了。最後,還必須安排人來構建和維護這個查詢表,而且隨著表的增長,所需的人數也會不斷增長,這估計會讓公司的財務部門比較惱火。所以,查詢表並不是乙個好辦法,我們需要更好的解決方案。

機器學習指的是軟體系統能從已有的經驗中抽象出普遍的規則,然後利用這些規則回答各種問題,包括曾經遇到過的和不曾見過的。有些演算法對於人類是透明的,意思就是說,人類可以理解演算法所抽象出來的規則。透明演算法的典型例子有決策樹,以及所有基於規則的學習方法。還有一類演算法對人類是不透明的,例如,神經網路和支援向量機(svm)就屬於這一類演算法。

時刻要記住,跟人類智慧型一樣,機器智慧型也是不可靠的。在智慧型應用領域,你將學會如何處理不確定性和模糊性。就像真實世界一樣,所有問題的答案都有乙個可信度,而不是絕對可靠的。雖然在我們的日常生活中,我們總是簡單地假設某些事情是一定會發生的。正因為如此,在使用智慧型應用時,我們需要解決可信度、有效性以及錯誤代價等方面的問題。

本文節選自《智慧型web演算法》一書。

圖書詳細資訊:

機器學習與資料探勘

機器學習的科學成分更重一些 資料探勘的技術成分更重一些 資料分析的角度 資料探勘並沒有機器學習探索人的學習機制這一科學發現任務 資料探勘中的資料分析是針對海量資料進行的 是一門多領域交叉學科,涉及概率論 統計學 畢竟輪 凸分析 演算法複雜度理論等多門學科,專門研究計算機是怎樣模擬或實現人類的學習行為...

機器學習 資料探勘學習資料蒐集

1.機器學習筆記by beader chen 2.機器學習基石筆記by 杜少 3.台灣大學機器學習基石by flowersummer 5.mooc學院課程 機器學習基石 machine learning foundations 機器學習技法 machine learning techniques 關...

機器學習 資料探勘 資料收集

leftnoteasy部落格 機器學習 pymining 開源中文文字資料探勘平台 ver 0.1發布 支援中文文字的資料探勘平台開源專案pymining發布 機器學習中的數學 4 線性判別分析 lda 主成分分析 pca 機器學習中的數學 3 模型組合 model combining 之boost...