任務定義:將文章中的某些單詞隱去,讓模型根據上下文判斷被隱去的單詞最可能是哪個。
資料集有:cnn/daily mail ,children』s book test(cbt),booktest,who did what,cloth, clicr, lambada,quasar-s
任務定義:給定一篇文章和乙個問題,讓模型從多個備選答案中選擇乙個最有可能是正確答案的選項。
此類形式和初高中時英語閱讀理解題的型別相似,甚至有資料集以中國中學生英語考試的資料為基礎構建資料集(race)。每篇文章對應多個問題,每個問題有多個候選答案,機器需要在這些候選答案中找到最合適的那個。通常這些候選答案與原文中的句子並不相同,即使相同也可能和問題毫不相關,所以僅靠判斷相似性無法取得較好的效果。資料集:mctest、race, dream, swag
任務定義:給定一篇文章和乙個問題,讓模型從文章中抽取連續的單詞序列,並使得該序列盡可能的作為該問題的答案。即給定文章和問題,機器需要在文章中找到答案對應的區域(span),給出開始位置和結束位置,區域的長度通常不會限制。這類資料集中最常用的是史丹福大學的squad資料集。資料集有:squad, squad2, newsqa, triviaqa, quac, coqa, searchqa, quasar-t, cmrc2018,drop,hotpotqa
任務定義:與片段抽取任務不同的是,該序列不再限制於是文章中的句子。自由形式的問答是所有問答形式中最難的乙個,它不限定問題所處的段落,即乙個問題可能是需要理解多個段落甚至多篇文章,問題的答案是人為創造的,也就是既不會給定候選答案,也不是只需要提取文章中的片段。dureader,quasar-t,searchqa,narrativeqa ,ms marco
機器閱讀理解資料集
總結f p q af p,q a f p,q a這裡的 f 就是閱讀理解的模型。模型的發展離不開資料集,資料集的不斷進步直接地推動了該領域的研究進展。根據問題 q 和回答 a 的形式,機器閱讀理解中的資料集可以分為最早的完型填空形式 cloze style 多項選擇 multi choice 區域 ...
理解資料集
資料集通常是長方形資料矩陣,行代表乙個觀察值,列代表乙個變數,下表提供了乙個假想的病人資料集 不同的規則有不同的資料集行列名稱。資料統計把它們成為乙個觀察值和變數,資料庫分析員把它們成為一條記錄和域,資料探勘和機器學習把它們成為乙個樣例和屬性。我們將會在本書中用乙個觀察值和變數這個術語。你可以分清資...
理解Delta lake ,理解資料湖
目前的資料部門從組織架構,從個人的負責的方向,處理的任務上,基於現在的資料架構,以及數倉的建設,看起來比較合理,但是也存在非常大的問題。目前的資料架構是從客戶端上報資料,通過logserver輸出到kafka,這時分為了兩步取走,第一步通過flink任務,將資料寫到hdfs上,然後將資料通過add ...