胡扯AI評測

2021-09-14 00:05:25 字數 955 閱讀 5521

評測即對演算法的效果與效能進行評價測量,傳統的語音類評測主要是結果導向(演算法指標—wer、業務指標—達成率)。

從測試的角度來看,測試case的覆蓋往往是不夠充分的,那麼從asr演算法模型的原理來看,另外一種評測思路:資料導向(通過對訓練資料和評測資料的特徵分布等進行分析,反推評測結果)。

asr演算法模型分為兩部分:聲學模型和語言模型,前者負責語音解碼,

後者負責文字的搜尋和輸出。聲學模型的目標是提供一種有效的方法,計算語音的特徵向量序列和每個發音模板之間的距離。聲學模型的設計和語言發音特點密切相關。

語言模型

asr演算法評測指標業界常用的就是wer(word errorrate)

不同於其他一些benchmark, dawnbench關注更端到端效能。以往的很多基準大都採集將在單個小批量資料上進行訓練所需的時間作為關鍵指標(等價於吞吐量,比如影象分類任務通常以每秒處理的張數作為效能評測指標),而忽視了經過訓練後模型結果的精準度。另一些基準的側重點則在於,對深度學習計算中使用到的單個低階操作(例如:卷積、矩陣乘法)進行計時。與這些基準不同,dawnbench在確保測量達到預期精準度所需時間的同時,兼顧了硬體和統計效能。

ai評測的基礎是選定評價標準(benchmark)

針對dwanbench、mlperf、deepbench和benchip這幾個代表性的測試基準。總的來說,這些測試基準主要從巨集觀和微觀兩個方面去測試:巨集觀即端到端的系統測試,對於軟體應用使用者來說,可以獲得直觀的效能評價。微觀是對深度學習計算中使用到的單個基本操作(例如:卷積、矩陣乘法)或者單層(如池化層pooling、全連線層fc)進行測試,使得測試基準可以更細粒度的評測乙個ai系統。

傳統演算法和ai模型之間有什麼區別?

如何做ai產品的質量保證?

如何確定產品的行為是正確的?

如何保障產品在更新的時候不會出問題?

乙個好的ai測試人員,應該是乙個好的傳統產品測試人員+演算法開發人員的合體。

業界標註平台調研

百度AI評測 文字糾錯

呼叫攻略 python3 首先認證授權 在開始呼叫任何api之前需要先進行認證授權,具體的說明請參考 獲取access token 向授權服務位址傳送請求 推薦使用post 並在url中帶上以下引數 grant type 必須引數,固定為client credentials client id 必須...

胡扯 基本概念

胡扯1 介面 介面可以用來標誌物件的類別,乙個物件可同時屬於多個類別。介面方法必須被具體子類實現。之後,可以通過介面的名義來呼叫具體方法。如list list new arraylist list.add abc 介面有利於我們在尚未具體實現的時候先設計出工程的結構。當以介面的名義來組織 的時候,很...

決策單調性胡扯筆記

2019 年,第一屆 csp 認證的考場上,作為選手的asuldb開啟了第二題。經過一番觀察,他認為這道題存在決策單調性,於是開始亂寫最終發現過不了樣例。最終asuldb對該題設計出了乙個暴力程式,對於一組規模為 u 的資料,該程式的執行時間極有可能是 u 2 之後又由於asuldb寫錯了輸出,他只...