機器閱讀理解資料集

2021-09-17 01:15:52 字數 1556 閱讀 9132

總結f(p

,q)=

af(p,q)=a

f(p,q)

=a這裡的 f 就是閱讀理解的模型。模型的發展離不開資料集,資料集的不斷進步直接地推動了該領域的研究進展。根據問題(q)和回答(a)的形式,機器閱讀理解中的資料集可以分為最早的完型填空形式(cloze-style)、多項選擇(multi-choice)、區域**(span-prediction)和自由形式(open-form)。經歷過英語高考的各位對此都不陌生,下面對這四種形式分別介紹,並給出每種形式的代表資料集。

完型填空型別的閱讀理解問題就是在原文中挖出乙個空來,由機器根據對文章上下文的理解去補全。這模擬較著名的資料集有cnn/daily mail、children』s book test(cbt)等,下文介紹了cnn/daily mail.

此類形式和初高中時英語閱讀理解題的型別相似,甚至有資料集以中國中學生英語考試的資料為基礎構建資料集(race)。每篇文章對應多個問題,每個問題有多個候選答案,機器需要在這些候選答案中找到最合適的那個。通常這些候選答案與原文中的句子並不相同,即使相同也可能和問題毫不相關,所以僅靠判斷相似性無法取得較好的效果。此類資料集中比較著名的有mctest、race等,下面介紹race資料集。

區域**形式閱讀理解問題也稱為抽取式問答(extractive qa),即給定文章和問題,機器需要在文章中找到答案對應的區域(span),給出開始位置和結束位置,區域的長度通常不會限制。這類資料集中最常用的是史丹福大學的squad資料集。

上述是對當下機器閱讀理解資料集的簡述,至於每個資料集中各模型的排名情況,可以移步*****withcode檢視。根據任務定義的不同,各資料集的評價指標也不盡相同。完形填空和多項選擇可以直接用準確率衡量,區域**形式可以用f1衡量。自由形式的閱讀理解評價指標有多種,用到bleu和rouge-l的多一些。本文提到的資料集如下:

資料集名稱

資料**

型別文件數目

問題數目

評價指標

cnn/daily mail

cnn,daily mail

完型填空

300k

1.4m

準確率children』s book test

children』s book

完型填空

108688k

準確率mctest

fictional stories

多項選擇

5002k

準確率race

english exams

多項選擇

28k97k

準確率squad

wikipedia

區域**

536100k

f1squad2.0

wikipedia

區域**

自由形式

1m200k

bleu,rouge-l

squad

user logs(bing)

自由形式

3.2m

1m準確率,bleu,rouge-l

end.

機器閱讀理解資料集

任務定義 將文章中的某些單詞隱去,讓模型根據上下文判斷被隱去的單詞最可能是哪個。資料集有 cnn daily mail children s book test cbt booktest,who did what,cloth,clicr,lambada,quasar s 任務定義 給定一篇文章和乙個...

理解資料集

資料集通常是長方形資料矩陣,行代表乙個觀察值,列代表乙個變數,下表提供了乙個假想的病人資料集 不同的規則有不同的資料集行列名稱。資料統計把它們成為乙個觀察值和變數,資料庫分析員把它們成為一條記錄和域,資料探勘和機器學習把它們成為乙個樣例和屬性。我們將會在本書中用乙個觀察值和變數這個術語。你可以分清資...

理解Delta lake ,理解資料湖

目前的資料部門從組織架構,從個人的負責的方向,處理的任務上,基於現在的資料架構,以及數倉的建設,看起來比較合理,但是也存在非常大的問題。目前的資料架構是從客戶端上報資料,通過logserver輸出到kafka,這時分為了兩步取走,第一步通過flink任務,將資料寫到hdfs上,然後將資料通過add ...