大資料分析經驗總結

2021-07-14 07:05:27 字數 657 閱讀 9232

大資料分析到底需要多少種機器學習的方法呢?

圍繞著這個問題,機器學習領域多年得出的一些經驗規律。

1.大資料分析效能的好壞,也就是說機器學習**的準確率,與使用的學習演算法、問題的性質、資料集的特性包括資料規模、資料特徵等都有關係。

2.一般地,ensemble方法包括random forest和adaboost、svm、logistic regression 分類準確率最高。

3.沒有一種方法可以應對所有問題。

random forest

、svm

等方法一般效能最好,但不是在什麼條件下效能都最好。

4.不同的方法,當資料規模小的時候,效能往往有較大差異,但當資料規模增大時,效能都會逐漸提公升且差異逐漸減小。也就是說,在大資料條件下,什麼方法都能

work

的不錯。

5.對於簡單問題,

random forest

、svm

等方法基本可行,但是對於複雜問題,比如語音識別、影象識別,最近流行的深度學習方法往往效果更好。深度學習本質是複雜模型學習,是今後研究的重點。

6. 在實際應用中,要提高分類的準確率,選擇特徵比選擇演算法更重要。好的特徵會帶來更好的分類結果,而好的特徵的提取需要對問題的深入理解。

總結:資料決定分析結果的上限,而不同演算法只是決定了逼近上限的程度。

資料分析經驗總結(非專業分析人員)

專案原因,兩個月時間陸續做幾個資料分析的工作。走了一些彎路,下面是一些經驗總結 1 需要保證分析的可信度,一般需要大量的自評,符合預期後才能進行下一步工作。2 巨集觀分析,得出整體的結論 3 細化分析,使得看報告的人能夠從中找出自己想要的指標。4 根據以上分析得出分析結論,做總結。5 最重要的是,給...

大資料應用測試經驗總結

大資料應用測試過程與傳統的web系統有較大的不同,大資料應用測試通常會分為web側和etl側測試,web側基本就是功能測試,而etl extracting transfroming loading 測試主要指從任何外部系統提取 轉換 載入資料到目標地。從底層資料採集 資料處理 到上層應用展現。一 從...

星環大資料使用經驗總結

因為hive主要語法是按照mysql習慣,本人用oracle比較多,所以對一些執行過的操作進行記錄總結,以防日後忘記。use dsdsj create table resourcedb dm smbs yztj smbs yztj dm string not null comment 驗證途徑 sm...