機器閱讀理解資料集

任務定義：將文章中的某些單詞隱去，讓模型根據上下文判斷被隱去的單詞最可能是哪個。

資料集有：cnn/daily mail ，children』s book test（cbt），booktest，who did what,cloth, clicr, lambada，quasar-s

任務定義：給定一篇文章和乙個問題，讓模型從多個備選答案中選擇乙個最有可能是正確答案的選項。

此類形式和初高中時英語閱讀理解題的型別相似，甚至有資料集以中國中學生英語考試的資料為基礎構建資料集（race）。每篇文章對應多個問題，每個問題有多個候選答案，機器需要在這些候選答案中找到最合適的那個。通常這些候選答案與原文中的句子並不相同，即使相同也可能和問題毫不相關，所以僅靠判斷相似性無法取得較好的效果。資料集：mctest、race, dream, swag

任務定義：給定一篇文章和乙個問題，讓模型從文章中抽取連續的單詞序列，並使得該序列盡可能的作為該問題的答案。即給定文章和問題，機器需要在文章中找到答案對應的區域（span），給出開始位置和結束位置，區域的長度通常不會限制。這類資料集中最常用的是史丹福大學的squad資料集。資料集有：squad, squad2, newsqa, triviaqa, quac, coqa, searchqa, quasar-t, cmrc2018,drop，hotpotqa

任務定義：與片段抽取任務不同的是，該序列不再限制於是文章中的句子。自由形式的問答是所有問答形式中最難的乙個，它不限定問題所處的段落，即乙個問題可能是需要理解多個段落甚至多篇文章，問題的答案是人為創造的，也就是既不會給定候選答案，也不是只需要提取文章中的片段。dureader，quasar-t，searchqa，narrativeqa ，ms marco

機器閱讀理解資料集

機器閱讀理解資料集

理解資料集

理解Delta lake ，理解資料湖

相關推薦