大資料就是許多資料的聚合;
大資料的特徵:
1、資料量大
2、結構複雜
3、資料更新速度快
機器學習是人工智慧的核心,要對大資料進行發掘,靠人工肯定是做不到的,要通過乙個模型讓計算機按照模型去執行,就是機器學習。
機器學習方法在大型資料庫中的應用稱為資料探勘(data mining)
資料探勘就是把大資料的價值發掘出來,比如根據過去30年的氣象資料,通過資料探勘,幾乎可以**明天的天氣是怎麼樣的,有較大概率是正確的;
零售業分析歷史資料,來構建市場應用模型,**產品的銷售情況;
製造業的學習模型用於故障檢測,來完善產品;
物理學、天文學、生物學的海量資料分析;
0、為什麼寫這篇博文
最近有很多剛入門ai領域的小夥伴問我:資料探勘與機器學習之間的區別與聯絡。為了不每次都給他們長篇大論的解釋,故此在網上整理了一些資料,整理成此篇文章,下次誰問我直接就給他發個鏈結就好了。
本篇文章主要闡述我個人在資料探勘、機器學習等方面的學習心得,並蒐集了網上的一些權威解釋,或許不太全面,但應該會對絕大多數入門者有乙個直觀地解釋。
機器學習:廣泛的定義為 「利用經驗來改善計算機系統的自身效能。」,事實上,由於「經驗」在計算機系統中主要是以資料的形式存在的,因此機器學習需要設法對資料進行分析,這就使得它逐漸成為智慧型資料分析技術的創新源之一,並且為此而受到越來越多的關注。
資料探勘:一種解釋是「識別出巨量資料中有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程」,顧名思義,資料探勘就是試圖從海量資料中找出有用的知識。
2、關係與區別
2.1 關係
資料探勘可以認為是資料庫技術與機器學習的交叉,它利用資料庫技術來管理海量的資料,並利用機器學習和統計分析來進行資料分析。其關係如下圖:
資料探勘受到了很多學科領域的影響,其中資料庫、機器學習、統計學無疑影響最大。粗糙地說,資料庫提供資料管理技術,機器學習和統計學提供資料分析技術。由於統計學界往往醉心於理論的優美而忽視實際的效用,因此,統計學界提供的很多技術通常都要在機器學習界進一步研究,變成有效的機器學習演算法之後才能再進入資料探勘領域。從這個意義上說,統計學主要是通過機器學習來對資料探勘發揮影響,而機器學習和資料庫則是資料探勘的兩大支撐技術。
2.2 區別
資料探勘並非只是機器學習在工業上的簡單應用,他們之間至少包含如下兩點重要區別:
1.傳統的機器學習研究並不把海量資料作為處理物件,因此,資料探勘必須對這些技術和演算法進行專門的、不簡單的改造。
2.作為乙個獨立的學科,資料探勘也有其獨特的東西,即:關聯分析。簡單地說,關聯分析就是希望從資料中找出「買尿布的人很可能會買啤酒」這樣看起來匪夷所思但可能很有意義的模式。
資料探勘與機器學習的區別
資料探勘和機器學習的區別和聯絡,周志華有一篇很好的論述 機器學習和資料探勘 可以幫助大家理解。資料探勘受到很多學科領域的影響,其中資料庫 機器學習 統計學無疑影響最大。簡言之,對資料探勘而言,資料庫提供資料管理技術,機器學習和統計學提供資料分析技術。由於統計學往往醉心於理論的優美而忽視實際的效用,因...
機器學習與資料探勘
機器學習的科學成分更重一些 資料探勘的技術成分更重一些 資料分析的角度 資料探勘並沒有機器學習探索人的學習機制這一科學發現任務 資料探勘中的資料分析是針對海量資料進行的 是一門多領域交叉學科,涉及概率論 統計學 畢竟輪 凸分析 演算法複雜度理論等多門學科,專門研究計算機是怎樣模擬或實現人類的學習行為...
機器學習和資料探勘的聯絡與區別
從資料分析的角度來看,資料探勘與機器學習有很多相似之處,但不同之處也十分明顯,例如,資料探勘並沒有機器學習探索人的學習機制這一科學發現任務,資料探勘中的資料分析是針對海量資料進行的,等等。從某種意義上說,機器學習的科學成分更重一些,而資料探勘的技術成分更重一些。本文選自 大資料架構詳解 從資料獲取到...