大資料知識總結

2021-10-14 18:46:04 字數 3609 閱讀 6370

同人工智慧一樣,在此簡單記錄一下大資料的重點。

關聯規則:

支援度:支援度揭示了a與b同時出現的概率

置信度:置信度揭示了a出現時,b是否也會出現或有多大概率出現

置信度計算:

a->b的置信度=的支援數/a的支援數

演算法過程:自己看

頻繁項集:對於乙個項集,它出現在若干事務中 。

演算法改進:

事務壓縮:不包含任何頻繁k-項集的事務,不可能包含任何頻繁(k+1)-項集

劃分:選樣:

動態項集計數:

基於劃分的聚類:

距離:歐氏距離(歐幾里得距離):

明氏距離:

明氏距離的缺點:

模型評價:

泛化誤差:在未來樣本上的誤差

經驗誤差:在訓練集上的誤差,也稱訓練誤差

泛化誤差越小越好,但是經驗誤差並不是越小越好,因為會出現過擬合現象。

獲得測試集的三種方法:

留出法,交叉驗證法,自助法

調參:超引數:演算法的引數,一般由人工設定

模型的引數:一般由學習確定

訓練集:用於模型擬合的資料樣本。在訓練過程中對訓練誤差進行梯度下降,進行學習,可訓練的權重引數

測試集:用於測試結果,模型效能

驗證集:是模型訓練過程中單獨留出的樣本集,它可以用於調整模型的超引數和用於對模型的能力進行初步評估

演算法引數選定後,要用「訓練集+驗證集」重新訓練最終模型

效能度量:

回歸任務常用均方誤差:

分類問題:

查準率/準確率:**正確的正例佔**正例的比例

查全率/召回率:**正確的正例佔實際正例的比例

pr圖,bep(平衡點):

f1指標:

對於多分類:

macro-f1(巨集): p,r取平均值

micro-f1(微): tp,fp,fn取平均值

y軸:tpr:**對的正例佔所有實際正例的比例

x軸:fpr:**錯誤的正例佔所有反例的比例

auc的面積越接近於1越好

如何畫圖

決策樹:

增益率:

基尼係數:選最小

g 越大,資料的不確定性越高;

g 越小,資料的不確定性越低;

g = 0,資料集中的所有樣本都是同一類別

剪枝概念:

主動去掉一些分支來降低過擬合的風險

基本策略:

預剪枝 (pre-pruning): 提前終止某些分支的生長

對每個結點在劃分前先進行估計,若當前結點的劃分不能帶來決策樹泛化效能提公升,則停止劃分並將當前結點標記為葉結點。

降低了過擬合風險,但是增加了欠擬合風險

後剪枝 (post-pruning): 生成一棵完全樹,再「回頭」剪枝

先從訓練集生成一棵完整的決策樹,然後自底向上對非葉結點進行考察,若將該結點對應的子樹替換為葉結點能帶來決策樹泛化效能提公升,則將該子樹替換為葉結點。

剪枝過程

對比預剪枝與後剪枝生成的決策樹,可以看出,後剪枝通常比預剪枝保留更多的分支,其欠擬合風險很小,因此後剪枝的泛化效能往往由於預剪枝決策樹。但後剪枝過程是從底往上裁剪,因此其訓練時間開銷比前剪枝要大

貝葉斯:

dc為類別為c的樣本數,d為總樣本數,n為可能有的類別數

ni為屬性i的可能取值個數

後驗概率:

半樸素貝葉斯:

綜合題:

如果是資料題(使用bp網路):

資料清洗:

1.可以畫出每個特徵的分布圖,如果發現有的特徵具有偏態,可以進行糾偏操作

2.可以畫出每個特徵的箱線圖,觀察有無離群點,去除離群點操作

3.求每個特徵的缺失值比例,以決定是否留下該特徵

4.對於數值型特徵,可以進行標準化

5.物件型特徵,可以用01序列轉化為數值型

6.可以利用原始資料生成新的維度,如計算比例、平均值等,當作新的特徵。

7.如果維數過多,可以進行pac降維

8.如果每類的樣本數目不均勻,可以進行過取樣或者欠取樣

特徵選擇:

9.選擇合適的特徵

10.使用10折交叉驗證來生成驗證集

11.選擇合適的評價指標:如果是多分類可以使用macro-f1,

模型建立:

12.建立bp神經網路,輸入層的節點個數為樣本的特徵數,啟用函式初步選擇sigmoid,給權值、偏置賦值為0,步長初步選擇0.5.

模型優化:

如果結果不理想,可以嘗試以下方法:

1.調整超引數,如步長,多次執行結果

2.增加神經元數量

3.增大深度

如果發現有過擬合現象,可以採用以下方法:

1.換用relu啟用函式

2.早停:當訓練誤差連續幾次小於某個設定閾值時,就停止訓練/當訓練誤差變小,驗證集誤差公升高時,就停止訓練

3.在誤差目標函式中加入正則項

如果是影象分類題(cnn網路):

1.如果樣本數太少,就進行資料增強,通過平移,旋轉,加雜訊等操作來增強資料

2.也可以通過將灰度化、腐蝕膨脹等操作,使得的某些特徵更加突出。

3.可以尋找類似本問題,且已經實現的網路應用到本模型中。如:去掉其全連線層,作為本模型的特徵提取器,或者固定其前幾層,用新資料庫去微調後幾層的引數。

4.評價標準可以選用準確率和召回率

優化:1.使用10折交叉驗證來生成驗證集

2.利用網格搜尋尋找合適的學習率

3.對於卷積層,可以通過卷積核小型化,1x1 卷積,network in network來優化

4.對於池化層,可以改用l-p 池化,混合池化,隨機池化等

5.啟用函式可以選用relu,防止過擬合和梯度**等問題

6.有過擬合傾向的話,可以在損失函式上加入正則項

7.批量歸一化:對神經網路每一層的輸入資料進行歸一化,防止由於上一層的引數改變了資料的分布,防止梯度**或梯度消失。

大資料基礎知識總結

1.什麼是大資料 維基百科對於大資料給出了乙個定性的描述 大資料是指無法使用傳統和常用的軟體技術和工具在一定時間內完成獲取 管理和處理的資料集。從技術特點來看,大資料滿足5v模型 大體量 volume 多樣性 variety 時效性 velocity 準確性 veracity 大價值 value 2...

大資料知識階段總結(一)

一 rdd常用運算元再次實驗 1 準備20 30秒的自我介紹,有特色些的 2 畫出你們的大資料架構,針對架構提問,如何做到精準一次 小檔案規避?3 畫出yarn的工作流程?4 你們使用的spark執行模式?5 yarn的排程有哪幾種?你們用的是哪幾種?如果申請的資源,在yarn的佇列裡資源不夠,怎麼...

大資料的學習總結(2) 大資料基礎知識

現在全球資料量以每年60 的速度增長,預計2020年,資料量將進入zb時代。而大資料的應用又十分的廣泛,無論是在學術研究 生產實踐 公司戰略 國家治理等各個方面都具有非同尋常的意義。因此對大資料的學習和研究是必不可少的。大資料的核心目標 利用好資料實現大資料的高效儲存管理和 值的挖掘分析 大資料三層...