什麼是資料探勘

2022-06-17 21:18:07 字數 3969 閱讀 7323

然而,資料的數量(體積)、複雜性(多樣性)以及收集和處理的速率(速度)對於人類來說都太大了,無法進行獨立分析。因此,儘管大資料的規模性和多樣性給資料分析帶來了挑戰,但仍然需要自動化工具從大資料中提取有用的資訊。

資料探勘將傳統的資料分析方法與用於處理大量資料的複雜演算法相結合,本文將介紹資料探勘的概況。

01 資料探勘及高階資料分析技術的應用

商業和工業

借助pos(銷售點)資料收集技術(條碼掃瞄器、射頻識別(rfid)和智慧卡技術),零售商可以在商店的收銀台收集顧客購物的最新資料。零售商可以利用這些資訊,加上電子商務**的日誌、客服中心的顧客服務記錄等其他的重要商務資料,能夠更好地理解顧客的需求,做出更明智的商業決策。

資料探勘技術可以用來支援廣泛的商務智慧型應用,如顧客分析、定向營銷、工作流管理、商店分布、欺詐檢測以及自動化購買和銷售。最近乙個應用是快速**交易,在這個交易中,需要使用相關的金融交易資料在不到一秒的時間內做出買賣決定。

資料探勘還能幫助零售商回答一些重要的商業問題,如:「誰是最有價值的顧客?」「什麼產品可以交叉銷售或提公升銷售?」「公司明年的營收前景如何?」這些問題促使著資料探勘技術的發展,比如關聯分析。

另乙個經歷大資料快速轉型的應用領域是移動感測器和移動裝置的使用,如智慧型手機和可穿戴計算裝置。借助更好的感測器技術,可以利用嵌入在相互連線的日常裝置上的低成本感測器(稱為物聯網(iot))來收集物理世界的各種資訊。

在數字系統中,物理感測器的深度整合正開始產生大量與環境相關的多樣化和分布式的資料,可用於設計方便、安全、節能的家庭系統,以及規劃智慧型城市。

醫學、科學與工程

醫學、科學與工程界的研究者正在快速收集大量資料,這些資料對獲得有價值的新發現至關重要。例如,為了更深入地理解地球的氣候系統,nasa已經部署了一系列的地球軌道衛星,不停地收集地表、海洋和大氣的全球觀測資料。

然而,由於這些資料的規模和時空特性,傳統的方法常常不適合分析這些資料集。資料探勘所開發的技術可以幫助地球科學家回答如下問題:「乾旱和颶風等生態系統擾動的頻度和強度與全球變暖之間有何聯絡?」「海洋表面溫度對地表降水量和溫度有何影響?」「如何準確地**乙個地區的生長季節的開始和結束?」

再舉乙個例子,分子生物學研究者希望利用當前收集的大量基因組資料,更好地理解基因的結構和功能。過去,傳統方法只允許科學家在乙個實驗中每次研究少量基因,微陣列技術的最新突破已經能讓科學家在多種情況下比較數以千計的基因特性。

這種比較有助於確定每個基因的作用,或許可以查出導致特定疾病的基因。然而,由於資料的雜訊和高維性,需要新的資料分析方法。除了分析基因序列資料外,資料探勘還能用來處理生物學的其他難題,如蛋白質結構**、多序列校準、生物化學路徑建模和系統發育學。

另乙個例子是利用資料探勘技術來分析越來越多的電子健康記錄(ehr)資料。不久之前,對患者的研究需要手動檢查每乙個患者的身體記錄,並提取與所研究的特定問題相關的、具體的資訊。ehr允許更快和更廣泛地探索這些資料。

然而,只有患者在看醫生或住院期間才能對他們進行觀察,並且在任何特定訪問期間只能測量關於患者健康的少量細節,因此存在重大挑戰。

目前,ehr分析側重於簡單型別的資料,如患者的血壓或某項疾病的診斷**。然而,很多態別更複雜的醫學資料也被收集起來,例如心電圖(ecg)和磁共振成像(mri)或功能性磁共振成像(fmri)的神經元影象。

儘管分析這些資料十分具有挑戰性,但其中包含了患者的重要資訊。將這些資料與傳統的ehr和基因組資料整合分析是實現精準醫學所需的功能之一,旨在提供更加個性化的患者護理。

02 什麼是資料探勘

資料探勘是在大型資料庫中自動地發現有用資訊的過程。資料探勘技術用來探查大型資料庫,發現先前未知的有用模式。資料探勘還可以**未來的觀測結果,比如顧客在網上或實體店的消費金額。

並非所有的資訊發現任務都被視為資料探勘。例如查詢任務:在資料庫中查詢個別記錄,或查詢含特定關鍵字的網頁。這是因為這些任務可以通過與資料庫管理系統或資訊檢索系統的簡單互動來完成。而這些系統主要依賴傳統的計算機科學技術,包括先進高效的索引結構和查詢處理演算法,有效地組織和檢索大型資料儲存庫的資訊。

儘管如此,資料探勘技術可以基於搜尋結果與輸入查詢的相關性來提高搜尋結果的質量,因此被用於提高這些系統的效能。

資料庫中的資料探勘與知識發現

資料探勘是資料庫中知識發現(knowledge discovery in database,kdd)不可缺少的一部分,而kdd是將未加工的資料轉換為有用資訊的整個過程,如圖1所示。該過程包括一系列轉換步驟,從資料預處理到資料探勘結果的後處理。

輸入資料可以以各種形式儲存(平面檔案、電子**或關係表),並且可以儲存在集中式資料庫中,或分布在多個資料站點上。預處理(preprocessing)的目的是將原始輸入資料轉換為適當的格式,以便進行後續分析。

資料預處理涉及的步驟包括融合來自多個資料來源的資料,清洗資料以消除雜訊和重複的觀測值,選擇與當前資料探勘任務相關的記錄和特徵。由於收集和儲存資料的方式多種多樣,資料預處理可能是整個知識發現過程中最費力、最耗時的步驟。

「結束迴圈」(closing the loop)通常指將資料探勘結果整合到決策支援系統的過程。例如,在商業應用中,資料探勘的結果所揭示的規律可以與商業活動管理工具結合,從而開展或測試有效的商品**活動。

這樣的結合需要後處理(postprocessing)步驟,確保只將那些有效的和有用的結果整合到決策支援系統中。後處理的乙個例子是視覺化,它使得資料分析者可以從各種不同的視角探查資料和資料探勘結果。在後處理階段,還能使用統計度量或假設檢驗,刪除虛假的資料探勘結果。

03 資料探勘要解決的問題

前面提到,面臨大資料應用帶來的挑戰時,傳統的資料分析技術經常遇到實際困難。下面是一些具體的問題,它們引發了人們對資料探勘的研究。

可伸縮由於資料產生和採集技術的進步,數太位元組(tb)、數拍位元組(pb)甚至數艾位元組(eb)的資料集越來越普遍。如果資料探勘演算法要處理這些海量資料集,則演算法必須是可伸縮的。許多資料探勘演算法採用特殊的搜尋策略來處理指數級的搜尋問題。為實現可伸縮可能還需要實現新的資料結構,才能以有效的方式訪問每個記錄。

例如,當要處理的資料不能放進記憶體時,可能需要核外演算法。使用抽樣技術或開發並行和分布式演算法也可以提高可伸縮程度。

高維性現在,常常會遇到具有成百上千屬性的資料集,而不是幾十年前常見的只具有少量屬性的資料集。在生物資訊學領域,微陣列技術的進步已經產生了涉及數千特徵的基因表達資料。具有時間分量或空間分量的資料集也通常具有很高的維度。

例如,考慮包含不同地區的溫度測量結果的資料集,如果在乙個相當長的時間週期內反覆地測量,則維數(特徵數)的增長正比於測量的次數。為低維資料開發的傳統資料分析技術通常不能很好地處理這類高維資料,如維災難問題。此外,對於某些資料分析演算法,隨著維數(特徵數)的增加,計算複雜度會迅速增加。

異構資料和複雜資料

通常,傳統的資料分析方法只處理包含相同型別屬性的資料集,或者是連續的,或者是分類的。隨著資料探勘在商務、科學、醫學和其他領域的作用越來越大,越來越需要能夠處理異構屬性的技術。

為挖掘這種複雜物件而開發的技術應當考慮資料中的聯絡,如時間和空間的自相關性、圖的連通性、半結構化文字和xml文件中元素之間的父子關係。

資料的所有權與分布

有時,需要分析的資料不會只儲存在乙個站點,或歸屬於乙個機構,而是地理上分布在屬於多個機構的資料來源中。這就需要開發分布式資料探勘技術。分布式資料探勘演算法面臨的主要挑戰包括:

如何降低執行分布式計算所需的通訊量?

如何有效地統一從多個資料來源獲得的資料探勘結果?

如何解決資料安全和隱私問題?

非傳統分析

傳統的統計方法基於一種假設檢驗模式,即提出一種假設,設計實驗來收集資料,然後針對假設分析資料。但是,這一過程勞力費神。當前的資料分析任務常常需要產生和評估數千種假設,因此需要自動地產生和評估假設,這促使人們開發了一些資料探勘技術。

此外,資料探勘所分析的資料集通常不是精心設計的實驗的結果,並且它們通常代表資料的時機性樣本(opportunistic sample),而不是隨機樣本(random sample)。

04 資料探勘與其他領域的關聯

一些其他領域也起到重要的支撐作用。特別是,需要資料庫系統提供高效的儲存、索引和查詢處理。源於高效能(並行)計算的技術在處理海量資料集方面常常是非常重要的。分布式技術還可以幫助處理海量資料,並且當資料不能集中到一起處理時顯得尤為重要。圖2顯示了資料探勘與其他領域之間的聯絡。

什麼是資料探勘

當今資料庫的容量已經達到上萬億的水平 t 1,000,000,000,000個位元組。在這些大量資料的背後隱藏了很多具有決策意義的資訊,那麼怎麼得到這些 知識 呢?也就是怎樣通過一顆顆的樹木了解到整個森林的情況?電腦科學對這個問題給出的最新回答就是 資料探勘,在 資料礦山 中找到蘊藏的 知識金塊 幫...

什麼是資料探勘

簡單地說,資料探勘是指從大量資料中提取或 挖掘 知識。該術語實際上有點用詞不當。注意,從礦石或砂子挖掘 稱作 挖掘,而不是砂石挖掘。因此,資料探勘應當更正確地命名為 從資料中挖掘知識 遺憾的是這個詞有點長。圖1 3 資料探勘 在你的資料中搜尋知識 有趣的模式 圖1 4 資料探勘作為知識發現過程的乙個...

什麼是資料探勘

什麼是資料探勘?簡單地說,資料探勘是指從大量資料中提取或 挖掘 知識。該術語實際上有點用詞不當。注意,從礦石或砂子挖掘 稱作 挖掘,而不是砂石挖掘。因此,資料探勘應當更正確地命名為 從資料中挖掘知識 遺憾的是這個詞有點長。知識挖掘 是乙個較短的術語,但不能反映從大量資料中挖掘。畢竟,挖掘是乙個很生動...