從資料採集與標記行業看資料與深度學習之關係

2021-08-10 17:20:16 字數 2586 閱讀 6850

1.資料規模

先看資料規模,資料規模與演算法模型的容量其實是比較相關的。演算法模型的容量越大,就意味著演算法能表示相對來說更複雜的關係。

當資料規模相對過大時,在訓練過程中容易產生欠學習(underfitting)。另一方面,在資料規模相對過小的情況下,就會產生過學習(overfitting)。

近年來流行的深度學習模型可以擁有非常大的容量,模型中普遍用的神經網路演算法,層數可以增加,每層神經元個數可以增加,那麼模型的表達能力也會增加。下圖是乙個例子。此外學術界也會做一些新的研究來增加模型的表達能力。另一方面得益於gpu,比較複雜模型的訓練也會比以前快很多。

現在有乙個問題,資料更多的話效果就會更好,那麼究竟有多好呢?google的一遍**解決了這個問題。

這個資料集是imagenet的兩百多倍。隨著資料集裡樣本數量的增多,在coco上的結果比用之前的資料集至少高出三個點,而在演算法的其他方面都沒有太多變化。可以看到資料規模的增大對演算法的效果提公升還是比較明顯的。

在工業界,資料規模更容易成為演算法研發的關鍵因素。如果有更多的資料,就可以使用容量更大、更複雜的模型,得到效果更好的演算法。當資料大到一定程度,資料和演算法之間可以進行反覆迭代,形成壁壘,為公司提供競爭力。

2.資料質量

資料質量會影響演算法效果。

對於質量一般的資料,比如經過爬蟲得來的資料,經過清洗、處理後,演算法效果會有明顯提公升。如果資料質量已經很高了,再去提公升資料質量,演算法效果的提公升比較有限。

另外還要考慮到成本和收益的權衡問題:想獲得質量更高的資料,成本也會更高。

資料質量評估主要包括兩個方面,一是原始採集資料質量,二是資料標註質量。

下面是對原始採集資料質量的評估:

語音:清晰度,背景音等

文字:是否自然語言,是否專業,與主題相關性等

下面是對資料標註質量的評估:

人工標記的大規模資料一般都會含有雜訊,一些經典資料集也含有雜訊,例如人臉lfw、ms coco等,這是不可避免的,不過在可以接受的限度內就行。

3.無監督學習與遷移學習

接下來談一下無監督學習與遷移學習,遷移學習已經有乙個比較大的資料集作為基礎了,再用人工標註一小部分新資料。

對於無監督學習,基本上不需要人工標註,主要是學習資料本身的分布特性。比如說聚類演算法,就是試圖找出資料集中分布的中心,所以不太需要人工標註。

目前工業界相對來說比較好的結果還是通過監督學習而來,很多都需要大量人工標註的資料。無監督學習和遷移學習在未來還是有待學術界研究,以望更大的突破。另外,在未來資料規模進一步提公升的情況下,無監督學習和遷移學習會有更多的用武之地。

4.資料準備方面的一些經驗

資料準備最開始是資料獲取,資料的獲取也分為幾種情況,比較常見的是網際網路公開獲取(公開資料集、爬蟲等),除此之外還有專業資料採集。在專業資料採集時,需要考慮採集方式:一是採集內容、採集規模、預算;二是採集過程要盡量與實際使用場景相一致;三是要考慮對資料集的要求,比如多樣性;四是採集是否涉及隱私、個人權利如肖像權、著作權等。

最後還有採集時間的要求。

資料清洗之後就要進行資料標註,標註的規則要盡可能地詳盡、清楚,需要給出文件和例子。專業的標註過程,一般有試標階段,這個階段需要詳細了解並確定需求。此外,在試標和正式標註過程中也會遇到不確定的情況,需要及時進行溝通,否則可能會影響到整體標註質量。

對於資料標註的方式,以及最終的輸出格式,都需要演算法研發人員來制定,有可能的話還是盡量使用常見的方式和格式。

資料標記完之後就是資料審查。做審查主要參考對資料質量的要求(正確率、精確度、完備性、一致性等)。審查方式有抽查、排查特殊指標、利用某些特徵排查異常值這幾種。

結論如下:對於演算法來說,資料越多越好、越廣越好、越準越好。在現有的情況下,監督學習的效果優於無監督學習/遷移學習。

機械加工行業QC資料採集與CPK分析案例分享

機械製造業主要是通過對金屬原材料物理性狀的改變 組裝,成為產品,使其增值。它主要包括機械加工 工具機等加工 組裝性行業。機械製造業設計的工業領域主要有機械裝置 汽車 造船 飛行器 機車 日用器具.總之,只要是以乙個乙個零部件組裝為主要工序的工業領域都屬於機械製造業的範疇。機械生產製造行業業務特點可歸...

彙編 從資料型別看WORD與DWORD

剛接觸彙編與逆向,記錄一些學習筆記。源 ida彙編 首先 1字 2位元組 1位元組 8位 8位元 2位16進製制 var 6 dword ptr 6 ptr 6表示指標上移6個單位處,這裡的單位是指計算機的定址單位,一般按位元組定址,ebp var 6 就表示ebp 6個位元組的位址處。dword ...

蘇州 張家港 SCADA資料採集與監控,電子看板

erp企業資源計畫 開源免費wms倉庫管理系統 mes製造執行系統 免費標籤 條碼 列印軟體 scada資料採集與監控,電子看板 mom製造運營管理平台 商務合作 15262337653 西門子plc opc c 通過opc server自定義介面實現客戶端資料讀寫 在客戶端開發時,要使用opcse...