現在網路上關於深度學習演算法的文章很多,但深度學習其實是資料驅動型。很多時候資料足夠好,能給演算法開發提供很大的便利。
1、資料標註的作用
資料標註是大部分人工智慧演算法得以有效執行的關鍵環節。人工智慧演算法是資料驅動型演算法,也就是說,如果想實現人工智慧,首先需要把人類理解和判斷事物的能力教給計算機,讓計算機學習到這種識別能力。
資料標註的過程是通過人工貼標的方式,為機器系統可供學習的樣本。資料標註是把需要機器識別和分辨的資料貼上標籤,然後讓計算機不斷地學習這些資料的特徵,最終實現計算機能夠自主識別。
資料的高質量體現在兩個方面:乙個標註的數量多,二是標註的質量高。
影象標註的質量標準:影象標註的***壞取決於畫素點的判定準確性。標註畫素點越接近被標註物的邊緣畫素,標註的質量就越高,標註的難度也越大。如果影象標註要求的準確率為100%,標註畫素點與被標註物的邊緣畫素點的誤差應該在1個畫素以內。
語音標註的質量標準:語音標註時,語音資料發音的時間軸與標註區域的音標需保持同步。標註於發音時間軸的誤差要控制在1個語音幀以內。若誤差大於1個語音幀,很容易標註到下乙個發音,造成雜訊資料。
文字標註的質量標準:文字標註涉及到的任務較多,不同任務的質量標準不同。例如:分詞標註的質量標準是標註好的分詞與詞典的詞語一致,不存在歧義;情感標註的標註質量標準是對標註句子的情感分類級別正確。
多數投票演算法(majority voting,mv)是常用的標註質量評估演算法。mv 演算法是由詹森提出的一種通用性強的質量控制演算法。它將絕大多數使用者選擇的結果視為最終結果。其基本思想為:假設有\(m\)個影象標註任務\((t_1,t_2,...t_m)\),每個任務\(t_i\)對應乙個二元分類。為提高標註質量和標註可靠性,將需要標註的物件\(x_i\)分配給\(n\)個員工(一共\(m\)個員工,\(n≤m\))。每個工人的標註結果為\(y_i^j\in\left\\),再根據\((y_i^1,...y_i^n)\)推斷出\(x_i\)的最終標籤,其計算公式為:
\(\hat= \begin1,
& \dfrac\begin \sum_^n y_i^j \end>\dfrac\\ random\ guess,
& \dfrac\begin \sum_^n y_i^j \end=\dfrac \\ 0,
& \dfrac\begin \sum_^n y_i^j \end<\dfrac
\end\)
影象資料的標註流程為:
(1)資料清洗:排除資料存在缺失值、雜訊資料、重複資料等質量問題。
(2)資料標註:劃分標註任務、制定標註規範。進行標註任務。
(3)標註檢驗:由標註審核員或機器質檢機制,審核標註質量
名稱
簡介
執行平台
標註形式
標註格式
labelimg
著名的影象標註工具
windows,linux,mac
矩形框voc和yolo格式
labelme
windows,linux,mac
多邊形、矩形、圓形、多段線、線段、點
voc 和 coco 格式
rectlabel
影象標註
mac多邊形、矩形、多段線線段、點
yolo、kitti、 coco1、csv
vott
windows,linux,mac
多邊形、矩形、點
tfrecord、csv、vott
labelbox
-多邊形、矩形、線、 點、巢狀分類
json 格式
via-
矩形、圓、橢圓、多邊形、點和線
json 格式
coco ui
用於標註 coco 資料集的工具,基於 web 方式
-矩形、多邊形、 點和線
coco格式
vatic
linux
-voc 格式
brat
基於 web 的文字標註工具,主要用於對文字的結構化標註
linux
-ann 格式
deepdive
處理非結構化文字的標註工具
linux
-nlp 格式
praat
語音標註工具
windows,unix,linux,mac
-json 格式
精靈標註助手
多功能標註工具
windows,linux,mac
矩形、多邊形和曲線
xml 格式
[1]蔡莉,王淑婷,劉俊暉,朱揚勇.資料標註研究綜述[j].軟體學報,2020,31(02):302-320.
資料相關 如何進行資料標註(1)
現在網路上關於深度學習演算法的文章很多,但深度學習其實是資料驅動型。很多時候資料足夠好,能給演算法開發提供很大的便利。1 資料標註的作用 資料標註是大部分人工智慧演算法得以有效執行的關鍵環節。人工智慧演算法是資料驅動型演算法,也就是說,如果想實現人工智慧,首先需要把人類理解和判斷事物的能力教給計算機...
資料相關 如何進行資料標註(2)
現在網路上關於深度學習演算法的文章很多,但深度學習其實是資料驅動型。很多時候資料足夠好,能給演算法開發提供很大的便利。本文的標註要點 於影象標註專家adela barriuso的標註筆記。她於2007年開始使用labelme系統地標註sun資料庫,標註了 超過25萬個物體。筆記記錄了標註過程中曾遇到...
如何進行資料同步
建立資料庫的鏈結 create database link dblink test connect to 需要鏈結的資料庫的名字 identified by 密碼 using 這個鏈結的別名 建立物化檢視用於同步資料 create materialized view test test是同步過來的實...