1、什麼是資料探勘?
從大型資料庫中提取有趣的(非平凡的、蘊含的、先前未知的且是潛在有用的)資訊或模式。
2、什麼是bi(business intelligence商務智慧型)?
企業利用資訊科技以企業內部及外部既有的資料庫資料為基礎,根據所需解決的問題進行資料彙總,整合成資料倉儲後,利用適當的工具進行資料處理,利用聯機分析及資料探勘等技術分析資料,將所發現的潛在特性或是建立的**模型傳遞給決策者,以提供協助其進行決策,並達到企業目標。
3、bi的三大核心技術?
dw資料倉儲:是前提和基礎,負責統一資料規則的處理和儲存。知識發現(kdd)的核心
olap聯機分析處理:是操作,側重顯性知識的處理和分析,與使用者的互動,快速響應及提供資料的多維檢視。
dm資料探勘:是發現,側重隱性知識發掘和利用,發現隱藏在資料中的模式和有用資訊。
4、資料探勘的應用?
資料庫分析和決策支援
– 市場分析和管理:針對銷售(target marketing), 顧客關係管理,購物籃分析,交叉銷售(cross selling),市場分割(market segmentation)
– 風險分析與管理:**,顧客關係,改進保險,質量控制,競爭能力分析
– 欺騙檢測與管理
其它應用
– 文字挖掘(新聞組、email、文件資料)
– 流資料探勘(stream data mining)
– web挖掘
– dna 資料分析
5、資料探勘的步驟過程?
6、kdd的基本步驟?
•學習應用領域
– 相關的先驗知識和應用的目標
• 建立目標資料集:資料選擇
• 資料清理和預處理(可能佔全部工作的 60%!)
• 資料歸約與變換
– 發現有用的特徵,維/變數歸約,不變數的表示
• 選擇資料探勘函式
– 彙總,分類,回歸,關聯,聚類
• 選擇挖掘演算法
• 資料探勘:搜尋有趣的模式
• 模式評估和知識表示
– 視覺化,變換,刪除冗餘模式,等
• 發現知識的使用
7、資料探勘的典型系統結構?
8、資料探勘在什麼資料上進行?
•平面檔案
• 關聯式資料庫
– 包括物件導向和物件-關聯式資料庫
• 事務(交易)資料庫
• 異種資料庫和遺產資料庫
• 資料倉儲
• 多**資料庫、空間資料庫、時間序列資料庫、文字資料庫
9、資料探勘的功能?
概化,彙總,比較資料特徵
關聯 (相關和因果關係)
分類和**,找出描述和識別類或概念的模型(函式),用於將來的**,**某些未知或遺漏的數值
聚類分析:聚類原則:最大化類內的相似性,最小化類間的相似性
孤立點(outlier)分析:孤立點:乙個資料物件,與資料的一般行為不一致,孤立點可以被視為例外,但對於欺騙檢測和罕見事件分析,它是相當有用的
趨勢和演變分析
其它基於模式或統計的分析
10、web挖掘?
web usage mining是在web資料儲存地中應用資料探勘技術抽取使用模式的方法
11、文字挖掘?
資料探勘應用於文字儲存地+基本語言學
淺嚐非同步IO
關於非同步io 記得幾年前使用mfc程式設計的時候,曾經使用過windows的非同步socket。當在socket控制代碼上設定好關心的事件 如,可讀 可寫 後,如果事件發生,則指定的視窗會收到乙個指定的訊息。int wsaasyncselect socket s,hwnd hwnd,unsigne...
淺嚐非同步IO
關於非同步io 記得幾年前使用mfc程式設計的時候,曾經使用過windows的非同步socket。當在socket控制代碼上設定好關心的事件 如,可讀 可寫 後,如果事件發生,則指定的視窗會收到乙個指定的訊息。int wsaasyncselect socket s,hwnd hwnd,unsigne...
淺嚐通用排序
淺嚐通用排序 c 課堂示例 1 排序演算法 例程 public void sort object objs 2 現有一些型別的資料需要完成排序,intdata,doubledata,stringdata,studentdata等 想建立乙個排序方法,能夠對這些型別的資料陣列進行排序 public a...