資料探勘的主要問題
本書強調資料探勘的主要問題,考慮挖掘技術、使用者介面、效能和各種資料型別。這些問題介紹如下:
資料探勘技術和使用者介面問題:這反映所挖掘的知識型別、在多粒度上挖掘知識的能力、領域知識的使用、特定的挖掘和知識顯示。
1在資料庫中挖掘不同型別的知識:由於不同的使用者可能對不同型別的知識感興趣,資料探勘系統應當覆蓋廣譜的資料分析和知識發現任務,包括資料特徵、區分、關聯、聚類、趨勢、偏差分析和類似性分析。這些任務可能以不同的方式使用相同的資料庫,並需要開發大量資料探勘技術。
2多個抽象層的互動知識挖掘:由於很難準確地知道能夠在資料庫中發現什麼,資料探勘過程應當是互動的。對於包含大量資料的資料庫,應當使用適當的選樣技術,進行互動式資料探查。互動式挖掘允許使用者聚焦搜尋模式,根據返回的結果提出和精煉資料探勘請求。特殊地,類似於olap在資料方上做的那樣,應當通過互動地在資料空間和知識空間下鑽、上捲和轉軸,挖掘知識。用這種方法,使用者可以與資料探勘系統互動,以不同的粒度和從不同的角度觀察資料和發現模式。
3結合背景知識:可以使用背景知識或關於所研究領域的資訊來指導發現過程,並使得發現的模式以簡潔的形式,在不同的抽象層表示。關於資料庫的領域知識,如完整性限制和演繹規則,可以幫助聚焦和加快資料探勘過程,或評估發現的模式的興趣度。
4資料探勘查詢語言和特定的資料探勘:關係查詢語言(如sql)允許使用者提出特定的資料提取查詢。類似地,需要開發高階資料探勘查詢語言,使得使用者通過說明分析任務的相關資料集、領域知識、所挖掘的資料型別、被發現的模式必須滿足的條件和興趣度限制,描述特定的資料探勘任務。這種語言應當與資料庫或資料倉儲查詢語言整合,並且對於有效的、靈活的資料探勘是優化的。
5資料探勘結果的表示和顯示:發現的知識應當用高階語言、視覺化表示形式、或其它表示形式表示,使得知識易於理解,能夠直接被人使用。如果資料探勘系統是互動的,這一點尤為重要。這要求系統採用有表達能力的知識表示技術,如樹、表、圖、圖表、交叉表、矩陣或曲線。
6處理噪音和不完全資料:存放在資料庫中資料可能反映噪音、例外情況、或不完全的資料物件。這些物件可能搞亂分析過程,導致資料與所構造的知識模型過分適應。其結果是,所發現的模式的精確性可能很差。需要處理資料噪音的資料清理方法和資料分析方法,以及發現和分析例外情況的局外者挖掘方法。
7模式評估——興趣度問題:資料探勘系統可能發現數以千計的模式。對於給定的使用者,許多模式不是有趣的,它們表示平凡知識或缺乏新穎性。關於開發模式興趣度的評估技術,特別是關於給定使用者類,基於使用者的信賴或期望,評估模式價值的主觀度量,仍然存在一些挑戰。使用興趣度度量,指導發現過程和壓縮搜尋空間,是又乙個活躍的研究領域。
效能問題:這包括資料探勘演算法的有效性、可規模性和並行處理。
8資料探勘演算法的有效性和可規模性:為了有效地從資料庫中大量資料提取資訊,資料探勘演算法必須是有效的和可規模化的。換一句話說,對於大型資料庫,資料探勘演算法的執行時間必須是可預計的和可接受的。從資料庫角度,有效性和可規模性是資料探勘系統實現的關鍵問題。上面討論的挖掘技術和使用者互動的大多數問題,也必須考慮有效性和可規模性。
9並行、分布和增量挖掘演算法:許多資料庫的大容量、資料的廣泛分布和一些資料探勘演算法的計算複雜性是促使開發並行和分布式資料探勘演算法的因素。這些演算法將資料劃分成部分,這些部分可以並行處理,然後合併每部分的結果。此外,有些資料探勘過程的高花費導致了對增量資料探勘演算法的需要。增量演算法與資料庫更新結合在一起,而不必重新挖掘全部資料。這種演算法漸增地進行知識更新,修正和加強先前業已發現的知識。
關於資料庫型別的多樣性問題:
10關係的和複雜的資料型別的處理:由於關聯式資料庫和資料倉儲已經廣泛使用,對它們開發有效的資料探勘系統是重要的。然而,其它資料庫可能包含複雜的資料物件、超文字和多**資料、空間資料、時間資料、或事務資料。由於資料型別的多樣性和資料探勘的目標不同,指望乙個系統挖掘所有型別的資料是不現實的。為挖掘特定型別的資料,應當構造特定的資料探勘系統。這樣,對於不同型別的資料,我們可能有不同的資料探勘系統。
由異種資料庫和全球資訊系統挖掘資訊:局域和廣域(如internet)計算機網路連線了許多資料來源,形成了大的、分布的和異種的資料庫。從具有不同資料語義的結構的、半結構的、和無結構的不同資料來源發現知識,對資料探勘提出了巨大挑戰。資料探勘可以幫助發現多個異種資料庫中的資料規律,這些規律多半難以被簡單的查詢系統發現,並可以改進異種資料庫資訊交換和協同操作的效能。web挖掘發現關於web連線、web使用和web動態情況的有趣知識,已經成為資料探勘的乙個非常具有挑戰性的領域。
混合雲面臨的主要問題,零日攻擊
根據一項新的調查研究,混合雲環境特別容易受到 零日漏洞 zero day 的攻擊。零日漏洞 就是安全漏洞在當天或在24小時內被發現之後立即被惡意利用進行攻擊,這種攻擊是在廠商缺少防範意識或缺少補丁的情況下導致,從而會造成巨大破壞 根據一項新的調查研究,混合雲環境特別容易受到 零日漏洞 zero da...
合同管理應注意的主要問題
合同作為企業從事經濟活動 取得經濟效益的橋梁和紐帶,同時也是產生法律風險的根源。合同管理混亂,勢必直接影響企業的經濟效益。合同管理漏洞多,合同把關不嚴。有的國有企業在合同管理方面缺乏必要的管理制度,簽約隨意性較大,對合同審查 把關不夠,許可權設定混亂,合同檔案管理不善等。同時,從事企業法律事務的專門...
盲目依賴ARC帶來的主要問題
weak typeof self weakself self self completionblock core foundation框架 corefoundation.framework 是一組c語言介面,它們為ios應用程式提供基本資料管理和服務功能。底層的corefoundation物件,大多...