資料建模及常見分類演算法

2021-10-23 21:53:23 字數 1656 閱讀 6399

資料建模指的是對現實世界各類資料的抽象組織,建立乙個適合的模型對資料進行處理。建模流程解讀

建模資料的抽取,清洗和加工以及建模演算法的訓練和優化會涉及大量的計算機語言和技術。比如:資料查詢語言sql;資料環境hadoop和spark;資料作業系統linux; 資料分析軟體r、python、sas、matlab等。

特徵工程涉及到統計/數學/資訊理論/計量等學科的基本概念。比如:變數的均值;分位數;峰度;譜;資訊熵;cosi;衰退速率以及馬氏距離等。

建模階段涉及多種量化模型,比如:統計模型;計量模型;機器學習模型;複雜網路等。比較常見的模型有:回歸分析模型;隨機森林;時間序列;神經網路;svm等。

想要在實際的專案中自如的運用這些模型演算法,不僅僅需要了解基本的數學原理,還需要深入掌握對應的計算機語言實現。至少要會在主流的分析軟體中呼叫演算法包,更高階的要求是能自己實現演算法的編寫和精進。只有這樣才能相對正確地設計並依據實際資料結構優化演算法,得到各方面表現都相對優異的模型。建模流程解讀

比如特徵工程中缺失值處理、特徵構建、變換等等,取決於模型方法、資料、業務目標等。除了基於之前提到過的量化指標構造的特徵,最後對模型表現貢獻最多的特徵往往是那些構造邏輯和業務邏輯掛鉤非常緊密的特徵。

這裡舉兩個例子來說明。建模流程解讀

例1:異常的交易風險,通常表明客戶存在違約或者欺詐的風險,那麼如何去構造特徵來描述異常交易風險呢?

可以是統計指標方差、變異度、數學指標馬氏距離;

也可以是業務邏輯「過去3天的交易金額相較於歷史水平漲幅大於100%」。建模流程解讀

後者顯然不專屬於任何一門學科,它來自於對業務的理解和消化。 因為建模是一方面,模型能夠實施生產是另一方面。結構複雜和特徵量大的模型往往意味著背後需要大量的計算資源,人力資源和時間資源支援。模型的現有表現和未來可能的衰減速度值不值得耗費大量人力物力去生產部署,部署後模型帶來的效益是否能在長期內沖銷成本也是建模人員需要去考慮的事情。

在資料分析與挖掘中,我們通常需要根據一些資料建立起特定的模型,然後處理。模型的建立需要依賴於演算法,一般,常見的演算法有分類(有明確類別)、聚類(無明確類別)、關聯、回歸等。

資料分類實現過程建模流程解讀 資料分類主要處理現實生活中的分類問題,一般處理思路如下:

(1)首先明確需求並對資料進行觀察;

(2)其次,確定演算法;

(3)確定步驟;

(4)程式設計實現。

常見的分類演算法(1)knn演算法(k-近鄰演算法):實現簡單的分類(驗證碼識別)

knn演算法的實現步驟:處理資料 -> 資料向量化 -> 計算歐幾里得距離 -> 根據距離進行分類(排序)

回歸演算法:擬合一條線

線性回歸、邏輯回歸、非線性回歸、主成分回歸

邏輯回歸:概率p、1-p,求比值,取對數,用e表示出p的函式,即是邏輯函式

(3)決策樹

(4)人工神經網路

(5)支援向量機 建模流程解讀

阿里雲k8s實戰手冊 [阿里雲cdn排坑指南]cdn

ecs運維指南

devops實踐手冊

hadoop大資料實戰手冊

knative雲原生應用開發指南

oss 運維實戰手冊

雲原生架構***

zabbix企業級分布式監控系統原始碼文件

10g大廠面試題戳領

CPU 常見分類

ia32 32 bits intel architecture 32位頻寬intel構架 ia64 64 bits intel architecture 64位頻寬intel構架 i386 intel 386 老的386機器,也泛指ia32體系的cpu i486 intel 486 i586 int...

效能測試常見分類

效能測試方法是通過模擬生產執行的業務壓力量和使用場景組合,測試系統的效能是否滿足生產效能要求。通俗地說,這種方法就是要在特定的執行條件下驗證系統的能力狀態。特點 1 這種方法的主要目的是驗證系統是否有系統宣稱具有的能力。2 這種方法要事先了解被測試系統經典場景,並具有確定的效能目標。3 這種方法要求...

效能測試常見分類

效能測試 狹義 效能測試方法是通過模擬生產執行的業務壓力量和使用場景組合,測試系統的效能是否滿足生產效能要求。通俗地說,這種方法就是要在特定的執行條件下驗證系統的能力狀態。特點 1 這種方法的主要目的是驗證系統是否有系統宣稱具有的能力。2 這種方法要事先了解被測試系統經典場景,並具有確定的效能目標。...