大資料資料整理

2021-07-13 19:37:13 字數 3085 閱讀 1861

1.大資料概念

volume

(大量)、

velocity

(高速)、

variety

(多樣)、

value

(價值)、

veracity

(真實性)

大資料」是需要新處理模式才能具有更強的

決策力、

洞察發現力和流程優化能力來適應海量、高增長率和多樣化的資訊

資產。2.資料庫和資料倉儲

設計:資料庫設計是盡量避免冗餘,一般採用符合正規化的規則來設計,資料倉儲在設計是有意引入冗餘,採用反正規化的方式來設計。

資料庫是為捕獲資料而設計,資料倉儲是為分析資料而設計,它的兩個基本的元素是維表和事實表。維是看問題的角度,比如時間,部門,維表放的就是這些東西的定義,事實表裡放著要查詢的資料,同時有維的id。 

校驗:資料倉儲不需要實時的校驗。資料庫需要實時的校驗

資料庫支援大量的並行,資料倉儲支援少量的平行計算

3.什麼是資料探勘

從大量的不完整的或者存在雜訊的資料裡自動提取隱藏的有意思的用用的魔術的過程就叫做資料探勘。

4.傳統的資料探勘的應用

商務智慧型 決策支援,客戶關係管理系統,企業資源規劃,大資料

5.資料探勘的主要技術

分類,聚類,關聯規則,回歸分析

6.分類器

分類是資料探勘的一種非常重要的方法。分類的概念是在已有資料的基礎上學會乙個分類函式或構造出乙個分類模型(即我們通常所說的分類器(classifier))。該函式或模型能夠把資料庫中的資料紀錄對映到給定類別中的某乙個,從而可以應用於資料**。總之,分類器是資料探勘中對樣本進行分類的方法的統稱,包含決策樹、邏輯回歸、樸素貝葉斯、神經網路等演算法。

如何評價分類器

根據混淆矩陣和roc曲線

在分類器設計過程中,如何評價分類器至關重要,乙個好的評價指標更有利於我們對分類模型進行優化;同時,好的分類器評價指標要求其充分反應出分類器對問題的解決能力,也更容易向使用者、客戶展示互動。

在分類問題中,乙個例項可能被判定為一下四種型別之一:

tp(true positive):被模型**為正的正樣本;

fp(false positive):被模型**為正的負樣本;

fn(false negative):被模型**為負的正樣本;

tn(true negative):被模型**為負的負樣本;

由這四種型別可以得到乙個混淆矩陣(confusion matrix):

混淆矩陣:混淆矩陣用於監督學習,顯示了乙個分類器可能遇到的所有情況,反應了**值和真實值之間的關係,通過計算精度評價分類

confusion matrix

predicted

negative

positive

actual

negative

tn

ÿfp

positive

fn

tp

基於以上混淆矩陣,可以引申出一下指標進一步評價分類器效能:

準確率(aaccuracy):對整個樣本集的判定能力,即將正的判定為正、負的判定為負,a=(tp+tn)/(tp+fn+fp+tn);

靈敏度(sensitivity):將正樣本**為正樣本的能力,sensitivity=tp/(tp+fn);

特異度(specificity):將負樣本**為負樣本的能力,specificity=tn/(tn+fp);

roc(receiver operating charateristic):roc的主要分析工具為畫在roc空間的曲線(如下圖),橫軸為1- specificity,縱軸為sensitivity。在分類問題中,乙個閥值對應於乙個特異性及靈敏度,並在roc空間描出乙個點p,當閥值連續移動時,p點也隨即移動最終繪成roc曲線。roc良好的刻畫了不同閥值對樣本的分辨能力,也同時反應出對正例和對反例的分辨能力,方便使用者根據實際需求選用合適的閥值。乙個好的分類模型要求roc曲線盡可能靠近圖形的左上角;

roc曲線(引子維基百科)

auc(area under roc curve)值指處於roc曲線下方的那部分面積大小,auc越大,反應分類器的效能越好;

乙個理想的分類模型其auc值為1,通常其值在0.5至1.0之間,較大的auc代表了分類模型具備較好的效能。

7.雲計算的概念

1.需要都少買多少 2.把軟體平台基礎設施均當作一種服務

8.流行的平行計算的模型

pram模型,bsp模型,logp模型

9.在真實的世界中資料探勘的挑戰

資料的收據工作量大 一般情況下資料會很髒 不完整 不一致 不平衡 雜訊

10. 怎樣處理丟失資料忽略

手動填補丟失值

自動填補丟失值

11.如何檢驗異常值

概率分布採用統計檢驗 距離度量原理任何簇的點,密度區域性利群點因子

12.處理不平衡資料集的主要任務

一準確度度為評價指標的分類方法不能很好的處理不平衡資料集

13.為什麼特徵選擇如此器重要

資料報含有很多冗餘的,不相關的特徵。特徵選擇可以提高模型的可解釋性,導致更短的訓練時間,能夠避免過擬合現象從而增強可推廣性。

14.如何選擇表徵主要資訊的特徵

逐步向前選擇:有空屬性開始,每次選擇原屬性集中最好的屬性

逐步向後刪除:

逐步向前選擇和逐步向前刪除的組合:

大資料面試題整理

2 在1的基礎上,求出現次數最多的k個ip top k問題 3 給定a b兩個大檔案,每行代表乙個訪問ip,求出a b中重複的ip 2.map和flatmap flatmap會做乙個扁平化操作 3.map和foreache的區別 有無返回值 4.reducebykey和groupbykey redu...

電力大資料技術框架整理

隨著社會現代化不斷推進,出先了很多例如大資料和人工智慧等新型技術,這些技術正在為越來越多的行業賦能。電力在我們生活中可以說是處處不在,為了提供更加便捷智慧型的服務,電力行業也出現了許多需要解決的問題。那麼網際網路技術如何為電網賦能呢?電網這個龐大的體系中的各個分支都可以和哪些技術呢結合呢?作為一項研...

大資料資料

作業系統 核心 分配和管理硬體 庫 沒有入口的應用軟體 應用軟體 1 設定網絡卡為nat模式 2 確保windows下的服務是否啟動 dhcp,net服務 3 編輯檔案 vi etc sysconfig network scripts ifcfg eth0 4 onboot yes 5 設定ip s...