總結f(p
,q)=
af(p,q)=a
f(p,q)
=a這裡的 f 就是閱讀理解的模型。模型的發展離不開資料集,資料集的不斷進步直接地推動了該領域的研究進展。根據問題(q)和回答(a)的形式,機器閱讀理解中的資料集可以分為最早的完型填空形式(cloze-style)、多項選擇(multi-choice)、區域**(span-prediction)和自由形式(open-form)。經歷過英語高考的各位對此都不陌生,下面對這四種形式分別介紹,並給出每種形式的代表資料集。
完型填空型別的閱讀理解問題就是在原文中挖出乙個空來,由機器根據對文章上下文的理解去補全。這模擬較著名的資料集有cnn/daily mail、children』s book test(cbt)等,下文介紹了cnn/daily mail.
此類形式和初高中時英語閱讀理解題的型別相似,甚至有資料集以中國中學生英語考試的資料為基礎構建資料集(race)。每篇文章對應多個問題,每個問題有多個候選答案,機器需要在這些候選答案中找到最合適的那個。通常這些候選答案與原文中的句子並不相同,即使相同也可能和問題毫不相關,所以僅靠判斷相似性無法取得較好的效果。此類資料集中比較著名的有mctest、race等,下面介紹race資料集。
區域**形式閱讀理解問題也稱為抽取式問答(extractive qa),即給定文章和問題,機器需要在文章中找到答案對應的區域(span),給出開始位置和結束位置,區域的長度通常不會限制。這類資料集中最常用的是史丹福大學的squad資料集。
上述是對當下機器閱讀理解資料集的簡述,至於每個資料集中各模型的排名情況,可以移步*****withcode檢視。根據任務定義的不同,各資料集的評價指標也不盡相同。完形填空和多項選擇可以直接用準確率衡量,區域**形式可以用f1衡量。自由形式的閱讀理解評價指標有多種,用到bleu和rouge-l的多一些。本文提到的資料集如下:
資料集名稱
資料**
型別文件數目
問題數目
評價指標
cnn/daily mail
cnn,daily mail
完型填空
300k
1.4m
準確率children』s book test
children』s book
完型填空
108688k
準確率mctest
fictional stories
多項選擇
5002k
準確率race
english exams
多項選擇
28k97k
準確率squad
wikipedia
區域**
536100k
f1squad2.0
wikipedia
區域**
自由形式
1m200k
bleu,rouge-l
squad
user logs(bing)
自由形式
3.2m
1m準確率,bleu,rouge-l
end.
機器閱讀理解資料集
任務定義 將文章中的某些單詞隱去,讓模型根據上下文判斷被隱去的單詞最可能是哪個。資料集有 cnn daily mail children s book test cbt booktest,who did what,cloth,clicr,lambada,quasar s 任務定義 給定一篇文章和乙個...
理解資料集
資料集通常是長方形資料矩陣,行代表乙個觀察值,列代表乙個變數,下表提供了乙個假想的病人資料集 不同的規則有不同的資料集行列名稱。資料統計把它們成為乙個觀察值和變數,資料庫分析員把它們成為一條記錄和域,資料探勘和機器學習把它們成為乙個樣例和屬性。我們將會在本書中用乙個觀察值和變數這個術語。你可以分清資...
理解Delta lake ,理解資料湖
目前的資料部門從組織架構,從個人的負責的方向,處理的任務上,基於現在的資料架構,以及數倉的建設,看起來比較合理,但是也存在非常大的問題。目前的資料架構是從客戶端上報資料,通過logserver輸出到kafka,這時分為了兩步取走,第一步通過flink任務,將資料寫到hdfs上,然後將資料通過add ...