如何從機器學習資料中獲取更多收益

2021-09-13 21:14:15 字數 946 閱讀 2585

摘要: 本文講解一些關於機器學習資料集的小技巧,分享個人經驗,可供讀者參考。

對於深度學習而言,合適的資料集以及合適的模型結構顯得至關重要。選擇錯誤的資料集或者錯誤的模型結構可能導致得到乙個效能不佳的網路模型,甚至可能得到的是乙個不收斂的網路模型。這個問題無法通過分析資料得到很好的解決,只能是通過一次次的製作資料集、搭建模型並進行**實驗才能發現如何最好地利用資料集以及選取什麼樣的模型結構。

本文講解一些有關於資料集的實用知識,通過本文你將了解以下三點:

用多種方法建模**問題。

問題的框架是指:

比如此外,對於乙個新專案而言,沒有實際經驗可供參考,一切都得自己摸索,這個時候就得將資料收集齊全,以便後續足夠實驗階段使用。

將能夠想到資料都視覺化,從各個角度來看收集的資料。

設計實驗以了解模型效能隨著樣本的大小發生怎樣的變化

使用統計資料來了解趨勢是如何隨樣本大小的變化而變化的

基於以上兩點才能對模型效能曲線有所了解。

建立許多不同的輸入特徵檢視並對其測試,因為我們不知道哪些變數對**模型問題有所幫助。

使用特徵工程在**建模問題上建立附加的特徵和檢視。

例子包括:

歸一化輸入特徵;

標準化輸入特徵;

使輸入特徵變得平穩;

應用所能想到的資料預處理方法,對問題建立新的觀點,並用一套或多套模型進行測試,看看效能如何。我們的目標是發現資料的檢視,最佳地將對映問題的未知底層結構展現給學習演算法。

作者資訊

jason brownlee,專注於機器學習教育、推廣個人主頁:https://machinelearningmaster...

本文由阿里云云棲社群組織翻譯。

文章原標題《how to get the most from your machine learning data》,譯者:海棠,審校:uncle_lld。

詳情請閱讀原文

如何獲取更多MySQL相關的官方資料

在通過mysql參考手冊,書籍去學習mysql資料庫的同時,還可以通過本節介紹的其他方式,去獲取更多mysql資料庫相關的非常有用的資訊。這其中可能包含了更深層次的東西,比如說資料庫的某些功能是如何被提出的,以及這些功能是如何進行開發設計的,這可能有些geek,但是如果你想提高自己的專業知識,這是乙...

從本質如何理解機器學習

手推機器學習各大經典演算法成為演算法研發崗位的必備內容。無論您是從事資料探勘還是應用機器學習進行影象識別和商品推薦。僅僅會呼叫 python 機器學習包是不具備競爭力的。而機器學習演算法繁多,每個都靠記憶推導公式來記住機器學習演算法這是很困難的。只有了解,從演算法發明者的角度出發理解演算法原理,才能...

如何從HITRAN資料庫 獲取資料

最近研究了一下hitran 資料庫,在網路上關於hitran 的介紹不是很多,而且有點不太詳細。所以這篇部落格就從小白的角度介紹一下hitran 資料庫以及從中獲取資料的方法。hitran資料庫是光譜引數的彙編,用於模擬和分析氣態介質 尤其是陸地大氣 中的光的傳輸和發射。自1960年代末成立以來 當...