//本學習筆記只是記錄,並未有深入思考。
資料探勘是資料庫中發現必不可少的一部分。
資料預處理主要包括(可能是最耗時的步驟):
1.融合來自多個資料來源的資料
2.清洗資料以消除雜訊和重複的觀測值
3.選擇與當前資料探勘任務相關的記錄和特徵。
1.可伸縮性:面對海量資料,演算法必須是可伸縮的。例如:當藥不能處理的資料放入記憶體的時候,需要非記憶體演算法;使用抽樣技術或者開發並行和分布演算法也可提高伸縮性。
2.高維性:具有成百上千的屬性的資料集也很常見,比如基因特徵;並且由於維度的增加,演算法計算複雜度將會迅速公升高。
4.資料所有權與分布:資料在地理上分屬於多個站點和機構,需要開發分布式資料探勘技術,
5.非傳統分析:傳統的統計方法基於假設-檢驗模式,但目前的資料分析需要的假設量太大,那麼需要自動地產生假設和評估。
圖中給出了資料探勘和其他學科的關係。
**任務:根據其他屬性的值,**特定屬性的值。
根據資料型別可以分為:
分類:對離散型資料
回歸:對連續型資料
2.分析方式概括
**任務:比如對鳶尾花進行分類。
異常檢測:識別特徵顯著不同於其他特徵的觀測值;檢測欺詐軟體、網路攻擊等;
第一章 緒論(筆記)
程式設計的實質是資料表示和資料處理。計算甲能夠求解的問題一般可以分為數值問題和非數值問題。1.3 1 資料是資訊的載體。2 資料可分為兩類 一類是整數 實數等數值資料 另一類是文字 聲音 圖形和影象等非數值資料。3 資料元素是資料的基本大小。構成資料元素大小的不可分割的最小單位是資料項。4 資料結構...
第一章緒論筆記
資料的邏輯結構 線性表 樹 圖等資料結構,其核心是如何組織待處理的資料以及資料之間的關係 資料的儲存結構 如何將線性表,樹,圖等資料結構儲存到計算機的儲存器中,其核心是如何有效地儲存資料以及資料之間的邏輯關係。演算法 如何基於資料結構的某種儲存結構實現插入,刪除,查詢等基本操作,其核心是如何有效地處...
筆記 人工智慧導論 第一章 緒論
1.2.1 人工智慧的基本概念 人工智慧的基本概念 智慧型 知識與智力的總和 知識 一切智慧型行為的基礎 智力 獲取知識和運用知識解決問題的能力 1.2.2 智慧型的特徵 感知能力 記憶與思維能力 記憶能力 儲存感知到的和思維產生的知識 思維能力 對記憶的資訊進行處理 思維 邏輯思維 易形式化 形象...