人工智慧是目前炙手可熱的領域,所有的網際網路公司以及各路大迦們紛紛表態人工智慧將是下乙個時代的革命性技術。資料探勘(data mining)和機器學習(machine learning)作為人工智慧研究與應用的分支領域,也越來越多的被提到。 在大多數非計算機專業人士以及部分計算機專業背景人士眼中,機器學習以及資料探勘是兩個高深的領域。本文翻譯自外網文章,將從基本概念出發**他們的關係和異同,希望對大家能有所幫助。
原文章:
資料探勘不是數字時代帶來的新發明。這個概念已經存在了乙個多世紀,在20世紀30年代就受到眾多的公眾關注。
據hacker bits稱,資料探勘在2023年首次被提出,當時alan turing提出了一種通用機器的概念,可以執行與現代計算機類似的計算。
forbes還報道了圖靈在2023年開發的 「turing test」 ,以確定一台計算機是否具有真正的智慧型。計算機需要讓人相信它也是人類才能通過測試。僅僅兩年後,亞瑟·塞繆爾建立了塞繆爾跳棋遊戲程式,這似乎是世界上第乙個自我學習程式。它通過自我學習跳棋遊戲規則,在比賽中獲得了很不錯的成績。
通過長時間的發展,企業現在利用資料探勘和機器學習來改進業務,包括企業的銷售、投資、財務管理等多個方面。隨著各企業希望通過資料科學實現更大的業務目標,資料科學家已經成為全世界各組織的重要團隊成員。
資料探勘(data mining)一般是指從大量的資料中通過演算法搜尋隱藏於其中資訊的過程。資料探勘本質上像是機器學習和人工智慧的基礎,它的主要目的是從各種各樣的資料**中,提取出需要的資訊,然後將這些資訊合併,並發掘內在關係。資料探勘不能告訴你這些問題的答案,他只能告訴你,a和b可能存在相關關係,但是它無法告訴你a和b存在什麼相關關係。資料探勘是從大量的資料中尋找資料相互之間的特性。
機器學習指的是計算機系統無需遵照顯示的程式指令,而只是依靠暴露在資料中來提公升自身效能的能力。機器學習關注的是「如何構建能夠根據經驗自動改進的電腦程式」。比如,給予機器學習系統乙個關於交易時間、商家、地點、**及交易是否正當等信用卡交易資訊資料庫,系統就會學習到可用來**的信用卡欺詐的模式。機器學習本質上是跨學科的,他採用了電腦科學、統計學和人工智慧等領域的技術。
機器學習的應用範圍非常廣泛,針對那些產生龐大資料的活動,它幾乎擁有改進一切效能的潛力。現如今,機器學習已經成為認知技術中最炙手可熱的研究領域之一。
機器學習和資料探勘之間的乙個關鍵區別是它們如何在我們的日常生活中應用。
資料探勘可以用於多種用途,例如財務研究:投資者可能會使用資料探勘和網路抓取來檢視初創企業的財務狀況,並幫助他們做好投資決策。公司還可以使用資料探勘來幫助收集有關銷售趨勢的資料,以便更好地了解從市場營銷到庫存需求的所有方面的資訊,以及挖掘潛在客戶。資料探勘可用於梳理社交**檔案、**和數字資產,以收集相關公司有效銷售線索的資訊,從而開始推廣活動。利用資料探勘,可以在10分鐘內挖掘10000個潛在客戶。通過分析挖掘的資料資訊,可以**未來的發展趨勢, 有助於企業研究客戶需求。
機器學習體現了資料探勘的原理,但也可以進行自動關聯資料,並從資料中學習以應用於新的演算法。機器學習是自動駕駛汽車背後的技術,可以在駕駛時快速適應新的環境。當買家從亞馬遜購買產品時,機器學習還提供即時建議。這些演算法和分析一直都在改進,因此隨著時間的推移,結果只會變得更加準確。機器學習不是人工智慧,但是學習和改進能力仍然是一項令人印象深刻的壯舉。
資料探勘和機器學習都是以相同的基礎,但以不同的方式。資料科學家利用資料探勘來尋找決策的新模式。例如,服裝品牌自由人使用資料探勘來梳理數以百萬計的客戶記錄。這些資料報括了最暢銷的商品、退貨最多的商品以及客戶反饋,以幫助銷售更多的衣服並增強產品推薦。使用資料分析可以提高總體客戶體驗。
另一方面,機器學習實際上可以從現有資料中學習,並為機器自學提供必要的基礎。zebra medical vision開發了一種機器學習演算法,用於**導致每年超過500,000名美國人死亡的心血管疾病和事件。
機器學習可以觀察模式並從中學習以適應未來事件的行為,而資料探勘通常用作機器學習的資訊源。儘管資料科學家可以設定資料探勘來自動查詢特定型別的資料和引數,但如果沒有人的互動,它就無法自主學習和應用知識。資料探勘也無法自動看到與機器學習相同深度的現有資料塊之間的關係。
收集資料只是挑戰的一部分; 另一部分是理解這一切。正確的軟體和工具需要能夠分析和解釋科學家收集的大量資訊資料,並找到可識別的模式來採取行動。除非資料科學家花時間自行尋找這些複雜的、不明顯的、看似隨機的模式,否則這些資料基本上是不可用的。任何乙個熟悉資料科學和資料分析的人都知道這是一項艱鉅而耗時的任務。
企業可以使用資料來確定銷售**或確定客戶真正想要購買的產品型別。例如,沃爾瑪為其資料倉儲收集了3,000多家商店的銷售點。**商可以檢視此資訊並使用它來識別購買模式並指導他們的庫存**和未來流程。
資料探勘可以通過分類和序列分析揭示一些模式。然而,機器學習通過使用資料探勘用於自動學習和適應所收集資料的相同演算法,使這一概念更進一步。隨著惡意軟體成為越來越普遍的問題,機器學習可以尋找系統或雲中資料訪問方式的模式。機器學習還會檢視模式,以幫助確定哪些檔案實際上是惡意軟體,具有高度的準確性。所有這一切都是在不需要人類不斷監測的情況下完成的。如果檢測到異常模式,則可以傳送警報,以便採取措施防止惡意軟體傳播。
資料探勘和機器學習都有助於提高收集資料的準確性。但是,資料探勘及其分析方法通常與資料的組織和收集方式有關。資料探勘通過和抓取軟體從數千個資源中提取資料,並篩選有用的資料。
機器學習的主要基礎之一是資料探勘。資料探勘可用於提取更準確的資料。這最終有助於優化您的機器學習,以獲得更好的結果。人可能會錯過資料之間的多重聯絡和關係,而機器學習技術可以精確定位所有這些移動部件,以得出高度準確的結論,以幫助塑造機器的行為。
機器學習可以增強crm系統中的關係智慧型,幫助銷售團隊更好地了解客戶並與他們建立聯絡。結合機器學習,公司的crm可以分析過去導致轉換或客戶滿意度反饋的行為。它還可用於了解如何**哪些產品和服務的銷售情況最佳以及如何為這些客戶制定營銷資訊。
資料科學的未來是光明的,因為資料量會不斷的增加。據《富比士》報道,到2023年,我們積累的數字資料世界將從4.4 zettabytes增長到44 zettabytes。地球上的每乙個人將在每秒建立1.7兆位元組的新資訊。
隨著我們收集更多的資料,對先進資料探勘和機器學習技術的需求將迫使行業不斷發展,以跟上時代的步伐。我們很可能會看到資料探勘和機器學習之間有更多的重疊,因為這兩個交叉點可以增強用於分析目的的大量資料的收集和可用性。
根據bio it world的報告,資料探勘的未來指向**分析,因為我們將看到醫療研究等行業的高階分析。科學家將能夠使用**分析來觀察與疾病相關的因素,並**哪種**最有效。
我們只是觸及了機器學習可以做什麼以及它將如何傳播的表面,以幫助衡量我們的分析能力和改進我們的技術。根據geekwire的報告,隨著我們數十億臺機器的連線,從醫院到工廠到高速公路的一切都可以通過物聯網技術進行改進,物聯網技術可以從其他機器中學習。
機器學習為資料探勘提供了理論方法,而資料探勘技術是機器學習技術的乙個實際應用。逐步開發和應用了若干新的分析方法逐步演變而來形成的;這兩個領域彼此之間交叉滲透,彼此都會利用對方發展起來的技術方法來實現業務目標,資料探勘的概念更廣,機器學習只是資料探勘領域中的乙個新興分支與細分領域,只不過基於大資料技術讓其逐漸成為了當下顯學和主流。
機器學習與資料探勘
機器學習的科學成分更重一些 資料探勘的技術成分更重一些 資料分析的角度 資料探勘並沒有機器學習探索人的學習機制這一科學發現任務 資料探勘中的資料分析是針對海量資料進行的 是一門多領域交叉學科,涉及概率論 統計學 畢竟輪 凸分析 演算法複雜度理論等多門學科,專門研究計算機是怎樣模擬或實現人類的學習行為...
資料探勘與機器學習入門
導論 機器學習演算法最適用的場景就是 不便用規則處理的場合 資料探勘 data mining 是有組織有目的地收集資料,通過分析資料使之成為資訊,從而在大量資料中尋找潛在規律以形成規則或知識的技術。機器學習 machine learning,ml 是一門多領域交叉學科,涉及概率論 統計學 逼近論 凸...
04 機器學習 資料探勘與機器學習導論
簡而言之,資料探勘 data mining 是有組織有目的地收集資料,通過分析資料使之成為資訊,從而在大量資料中尋找潛在規律以形成規則或知識的技術。機器學習可以用來作為資料探勘的一種工具或手段 資料探勘的手段不限於機器學習,譬如還有諸如統計學等眾多方法 但機器學習的應用也遠不止資料探勘,其應用領域非...