大資料時代的資料探勘是怎麼做的?

2021-09-29 12:21:52 字數 3877 閱讀 6964

一、資料探勘在大資料時代,資料的產生和收集是基礎,資料探勘是關鍵,資料探勘可以說是大資料最關鍵也是最基本的工作。通常而言,資料探勘也稱為datamining,或知識發現knowledge discovery from data,泛指從大量資料中挖掘出隱含的、先前未知但潛在的有用資訊和模式的乙個工程化和系統化的過程。不同的學者對資料探勘有著不同的理解,但個人認為,資料探勘的特性主要有以下四個方面:

2.工程性(an engineering process):資料探勘是乙個由多個步驟組成的工程化過程。資料探勘的應用特性決定了資料探勘不僅僅是演算法分析和應用,而是乙個包含資料準備和管理、資料預處理和轉換、挖掘演算法開發和應用、結果展示和驗證以及知識積累和使用的完整過程。而且在實際應用中,典型的資料探勘過程還是乙個互動和迴圈的過程。

3.集合性(a collection of functionalities):資料探勘是多種功能的集合。常用的資料探勘功能包括資料探索分析、關聯規則挖掘、時間序列模式挖掘、分類**、聚類分析、異常檢測、資料視覺化和鏈結分析等。乙個具體的應用案例往往涉及多個不同的功能。不同的功能通常有不同的理論和技術基礎,而且每乙個功能都有不同的演算法支撐。

4.交叉性(an interdisciplinary field):資料探勘是一門交叉學科,它利用了來自統計分析、模式識別、機器學習、人工智慧、資訊檢索、資料庫等諸多不同領域的研究成果和學術思想。同時一些其他領域如隨機演算法、資訊理論、視覺化、分布式計算和最優化也對資料探勘的發展起到重要的作用。資料探勘與這些相關領域的區別可以由前面提到的資料探勘的3個特性來總結,最重要的是它更側重於應用。綜上所述,應用性是資料探勘的乙個重要特性,是其區別於其他學科的關鍵,同時,其應用特性與其他特性相輔相成,這些特性在一定程度上決定了資料探勘的研究與發展,同時,也為如何學習和掌握資料探勘提出了指導性意見。如從研究發展來看,實際應用的需求是資料探勘領域很多方法提出和發展的根源。從最開始的顧客交易資料分析(market basket analysis)、多**資料探勘(********** data mining)、隱私保護資料探勘(privacy-preserving data mining)到文字資料探勘(text mining)和web挖掘(web mining),再到社交**挖掘(social media mining)都是由應用推動的。工程性和集合性決定了資料探勘研究內容和方向的廣泛性。其中,工程性使得整個研究過程裡的不同步驟都屬於資料探勘的研究範疇。而集合性使得資料探勘有多種不同的功能,而如何將多種功能聯絡和結合起來,從一定程度上影響了資料探勘研究方法的發展。比如,20世紀90年代中期,資料探勘的研究主要集中在關聯規則和時間序列模式的挖掘。到20世紀90年代末,研究人員開始研究基於關聯規則和時間序列模式的分類演算法(如classification based on association),將兩種不同的資料探勘功能有機地結合起來。21世紀初,乙個研究的熱點是半監督學習(semi-supervised learning)和半監督聚類(semi-supervised clustering),也是將分類和聚類這兩種功能有機結合起來。近年來的一些其他研究方向如子空間聚類(subspace clustering)(特徵抽取和聚類的結合)和圖分類(graph classification)(圖挖掘和分類的結合)也是將多種功能聯絡和結合在一起。最後,交叉性導致了研究思路和方法設計的多樣化。前面提到的是資料探勘的特性對研究發展及研究方法的影響,另外,資料探勘的這些特性對如何學習和掌握資料探勘提出了指導性的意見,對培養研究生、本科生均有一些指導意見,如應用性在指導資料探勘時,應熟悉應用的業務和需求,需求才是資料探勘的目的,業務和演算法、技術的緊密結合非常重要,了解業務、把握需求才能有針對性地對資料進行分析,挖掘其價值。

因此,在實際應用中需要的是一種既懂業務,又懂資料探勘演算法的人才。工程性決定了要掌握資料探勘需有一定的工程能力,乙個好的資料額挖掘人員首先是一名工程師,有很強大的處理大規模資料和開發原型系統的能力,這相當於在培養資料探勘工程師時,對資料的處理能力和程式設計能力很重要。集合性使得在具體應用資料探勘時,要做好底層不同功能和多種演算法積累。交叉性決定了在學習資料探勘時要主動了解和學習相關領域的思想和技術。因此,這些特性均是資料探勘的特點,通過這四個特性可總結和學習資料探勘。

二、大資料的特徵大資料(bigdata)一詞經常被用以描述和指代資訊**時代產生的海量資訊。研究大資料的意義在於發現和理解資訊內容及資訊與資訊之間的聯絡。研究大資料首先要理清和了解大資料的特點及基本概念,進而理解和認識大資料。研究大資料首先要理解大資料的特徵和基本概念。

業界普遍認為,大資料具有標準的「4v」特徵:

1.volume(大量):資料體量巨大,從tb級別躍公升到pb級別。

3.velocity(高速):處理速度快,實時分析,這也是和傳統的資料探勘技術有著本質的不同。

4.value(價值):價值密度低,蘊含有效價值高,合理利用低密度價值的資料並對其進行正確、準確的分析,將會帶來巨大的商業和社會價值。

上述「4v」特點描述了大資料與以往部分抽樣的「小資料」的主要區別。然而,實踐是大資料的最終價值體現的唯一途徑。從實際應用和大資料處理的複雜性看,大資料還具有如下新的「4v」特點:

5.variability(變化):在不同的場景、不同的研究目標下資料的結構和意義可能會發生變化,因此,在實際研究中要考慮具體的上下文場景(context)。

6.veracity(真實性):獲取真實、可靠的資料是保證分析結果準確、有效的前提。只有真實而準確的資料才能獲取真正有意義的結果。

7.volatility(波動性)/variance(差異):由於資料本身含有噪音及分析流程的不規範性,導致採用不同的演算法或不同分析過程與手段會得到不穩定的分析結果。

8.visualization(視覺化):在大資料環境下,通過資料視覺化可以更加直觀地闡釋資料的意義,幫助理解資料,解釋結果。綜上所述,以上「8v」特徵在大資料分析與資料探勘中具有很強的指導意義。

三、大資料時代下的資料探勘在大資料時代,資料探勘需考慮以下四個問題:大資料探勘的核心和本質是應用、演算法、資料和平台4個要素的有機結合。因為資料探勘是應用驅動的,**於實踐,海量資料產生於應用之中。需用具體的應用資料作為驅動,以演算法、工具和平台作為支撐,最終將發現的知識和資訊應用到實踐中去,從而提供量化的、合理的、可行的、且能產生巨大價值的資訊。挖掘大資料中隱含的有用資訊需設計和開發相應的資料探勘和學習演算法。演算法的設計和開發需以具體的應用資料作為驅動,同時在實際問題中得到應用和驗證,而演算法的實現和應用需要高效的處理平台,這個處理平台可以解決波動性問題。高效的處理平台需要有效分析海量資料,及時對多元資料進行整合,同時有力支援資料化對演算法及資料視覺化的執行,並對資料分析的流程進行規範。

四、大資料探勘系統的開發

1.背景目標大資料時代的來臨使得資料的規模和複雜性都出現**式的增長,促使不同應用領域的資料分析人員利用資料探勘技術對資料進行分析。在應用領域中,如醫療保健、高階製造、金融等,乙個典型的資料探勘任務往往需要複雜的子任務配置,整合多種不同型別的挖掘演算法以及在分布式計算環境中高效執行。因此,在大資料時代進行資料探勘應用的乙個當務之急是要開發和建立計算平台和工具,支援應用領域的資料分析人員能夠有效地執行資料分析任務。之前提到乙個資料探勘有多種任務、多種功能及不同的挖掘演算法,同時,需要乙個高效的平台。因此,大資料時代的資料探勘和應用的當務之急,便是開發和建立計算平台和工具,支援應用領域的資料分析人員能夠有效地執行資料分析任務。

2.相關產品現有的資料探勘工具有weka、spss和sqlserver,它們提供了友好的介面,方便使用者進行分析,然而這些工具並不適合進行大規模的資料分析,同時,在使用這些工具時使用者很難新增新的演算法程式。流行的資料探勘演算法庫如mahout、mlc++和milk,這些演算法庫提供了大量的資料探勘演算法。但這些演算法庫需要有高階程式設計技能才能進行任務配置和演算法整合。最近出現的一些整合的資料探勘產品如radoop和bc-pdm,它們提供友好的使用者介面來快速配置資料探勘任務。但這些產品是基於hadoop框架的,對非hadoop演算法程式的支援非常有限。沒有明確地解決在多使用者和多工情況下的資源分配。

總結而言,大資料的複雜特徵對資料探勘在理論和演算法研究方面提出了新的要求和挑戰。大資料是現象,核心是挖掘資料中蘊含的潛在資訊,並使它們發揮價值。資料探勘是理論技術和實際應用的完美結合。資料探勘是理論和實踐相結合的乙個例子。

資料探勘怎麼做

理解你的資料探勘要解決什麼業務問題 必須從商業或者從業者的角度去了解專案的要求和最終目的,去分析整個問題涉及的資源 侷限 設想,甚至是風險 意外等情況,從業務來到業務中去 重點 在業務理解的基礎上,對掌握的資料要有乙個清晰明確的認識 了解有哪些資料,那些可能對目標有影響的資料,哪些是冗餘資料 哪些是...

資料溢位怎麼解決 大資料輿情監測怎麼做的解決方案

對於不了解輿情大資料的,可能不太清楚輿情大資料是什麼意思?甚至可能不知道大資料輿情監測要怎麼做?而對於還沒運用大資料技術,還在用傳統的人工的方式監測輿情的,會有大資料輿情監測如何快速高效做好之類的疑問等。下面蟻坊軟體就重點這對這些問題來一一解答。輿情大資料其實指的是網際網路上海量的網路輿情 資料資訊...

大資料中資料清理怎麼做的 大資料處理技術之資料清洗

我們在做資料分析工作之前一定需要對資料進行觀察並整理,這是因為挖掘出來的資料中含有很多無用的資料,這些資料不但消耗分析的時間,而且還會影響資料分析結果,所以我們需要對資料進行清洗。在這篇文章中我們重點給大家介紹一下資料清洗的相關知識。那麼什麼是資料清洗呢?一般來說,資料清洗是指在資料集中發現不準確 ...