機器閱讀理解資料集

總結f(p

,q)=

af(p,q)=a

f(p,q)

=a這裡的 f 就是閱讀理解的模型。模型的發展離不開資料集，資料集的不斷進步直接地推動了該領域的研究進展。根據問題（q）和回答（a）的形式，機器閱讀理解中的資料集可以分為最早的完型填空形式（cloze-style）、多項選擇（multi-choice）、區域**（span-prediction）和自由形式（open-form）。經歷過英語高考的各位對此都不陌生，下面對這四種形式分別介紹，並給出每種形式的代表資料集。

完型填空型別的閱讀理解問題就是在原文中挖出乙個空來，由機器根據對文章上下文的理解去補全。這模擬較著名的資料集有cnn/daily mail、children』s book test(cbt)等，下文介紹了cnn/daily mail.

此類形式和初高中時英語閱讀理解題的型別相似，甚至有資料集以中國中學生英語考試的資料為基礎構建資料集（race）。每篇文章對應多個問題，每個問題有多個候選答案，機器需要在這些候選答案中找到最合適的那個。通常這些候選答案與原文中的句子並不相同，即使相同也可能和問題毫不相關，所以僅靠判斷相似性無法取得較好的效果。此類資料集中比較著名的有mctest、race等，下面介紹race資料集。

區域**形式閱讀理解問題也稱為抽取式問答（extractive qa），即給定文章和問題，機器需要在文章中找到答案對應的區域（span），給出開始位置和結束位置，區域的長度通常不會限制。這類資料集中最常用的是史丹福大學的squad資料集。

上述是對當下機器閱讀理解資料集的簡述，至於每個資料集中各模型的排名情況，可以移步*****withcode檢視。根據任務定義的不同，各資料集的評價指標也不盡相同。完形填空和多項選擇可以直接用準確率衡量，區域**形式可以用f1衡量。自由形式的閱讀理解評價指標有多種，用到bleu和rouge-l的多一些。本文提到的資料集如下：

資料集名稱

資料**

型別文件數目

問題數目

評價指標

cnn/daily mail

cnn,daily mail

完型填空

300k

1.4m

準確率children』s book test

children』s book

完型填空

108688k

準確率mctest

fictional stories

多項選擇

5002k

準確率race

english exams

多項選擇

28k97k

準確率squad

wikipedia

區域**

536100k

f1squad2.0

wikipedia

區域**

自由形式

1m200k

bleu,rouge-l

squad

user logs(bing)

自由形式

3.2m

1m準確率，bleu,rouge-l

end.

機器閱讀理解資料集

機器閱讀理解資料集

理解資料集

理解Delta lake ，理解資料湖

相關推薦