資料科學 機器學習工作流程

2021-10-07 09:13:31 字數 1602 閱讀 7892

構建機器學習應用程式在許多方面與標準工程正規化相似,但在乙個關鍵方面有所不同:需要將資料作為原材料來使用。資料專案的成功在很大程度上取決於您所獲取資料的質量以及處理方式。並且由於處理資料屬於資料科學領域,因此有助於理解資料科學工作流程:

該過程按以下順序進行以下六個步驟:採集檢查探索清理準備建模評估和最終部署

通常需要回溯到先前的步驟,例如在檢查和準備資料或進行評估和建模時,但是可以如上圖所示描述高階別的過程。現在讓我們詳細討論每個步驟。

機器學習應用程式的獲取資料可以來自許多**。可能會以csv檔案的形式通過電子郵件傳送,也可能來自下拉伺服器日誌,或者可能需要構建自定義網路抓取工具。

一旦獲取了資料,下一步就是檢查和探索。在此階段,主要目標是對資料進行完整性檢查,而實現此目的的最佳方法是查詢不可能或非常不可能的事情。

例如,如果資料具有唯一識別符號,請檢查是否確實只有乙個。如果資料是基於**的,請檢查資料是否始終為正;以及任何資料型別

檢查最極端的情況。 他們有道理嗎? 乙個好的做法是對資料進行一些簡單的統計測試並將其視覺化

此外,某些資料可能丟失或不完整。 在此階段要注意這一點非常重要,因為稍後在清潔和準備階段需要解決此問題。 模型僅與輸入的資料一樣好,因此正確執行此步驟至關重要。

當所有資料都整理好後,下一步就是將其放置在適合建模的格式中。 此階段包含許多過程,例如過濾,聚合,估算和轉換。 必需的操作型別將高度依賴於資料型別以及所使用的庫和演算法的型別。 例如,對於基於自然語言的文字,所需的轉換將與時間序列資料所需的轉換非常不同。

一旦完成資料準備,下一步便是建模。

在此階段,選擇適當的演算法,並根據資料訓練模型。在此階段,有許多最佳實踐可以遵循,我們將詳細討論它們,但是基本步驟涉及將資料分為訓練測試驗證集

資料的拆分似乎是不合邏輯的(尤其是當更多資料通常會產生更好的模型時),但是正如我們將看到的那樣,這樣做可以使我們獲得有關模型在現實世界中的效能的更好反饋,並阻止我們建模的主要罪過:過擬合

評估建立模型並做出**後,下一步就是了解模型的效果。

這是評估尋求解決的問題。衡量模型效能的方法有很多種,並且再次很大程度上取決於資料的型別和所使用的模型,但是總的來說,我們正在尋求答案 模型的**與實際值有多接近的問題。

有許多令人費解的術語,例如均方根誤差歐幾里德距離f1得分,但最後,它們都只是對實際值和估計的**之間的距離的度量

一旦模型的效能令人滿意,下一步就是部署。 根據使用情況,這可以採取多種形式,但是常見的場景包括在另乙個較大的應用程式,定製的web應用程式中甚至只是乙個簡單的cron作業中將其用作功能。

資料科學 機器學習的工作流程

摘要 理解資料科學的工作流程,有助於我們合理有序地把控相關專案的開展。常見的整個過程包括 獲取,檢查和探索,清理和準備,建模,評估和最後的部署。機器學習應用中的資料,可以來自不同的資料來源,它可能是通過電子郵件傳送csv檔案,也可能是從伺服器中拉取的日誌,或者它可能需要構建自己的web爬蟲。資料可能...

機器學習的工作流程

打造乙個機器學習的應用程式,從工作流程方面熟悉整體的步驟,對後面深入學習有很大的幫助。整個過程有六個步驟 機器學習中的資料,可以來自不同的資料來源,可能是csv檔案,也可能是從伺服器拉取出來的日誌,或者是自己構建的web爬蟲。獲取了資料,下一步進行合理地檢查資料,最好的方法是發現不可能或幾乎不可能的...

GPU 加速資料科學工作流程

gpu 加速資料科學工作流程 gpu accelerate your data science workflows 傳統上,資料科學工作流程是緩慢而繁瑣的,依賴於cpu來載入 過濾和運算元據,訓練和部署模型。gpu大大降低了基礎設施成本,並為使用rapids的端到端資料科學工作流提供了卓越的效能 開...