SCIERC資料集解析

2021-10-12 12:24:42 字數 1014 閱讀 5844

官方資料集位址

multi-task identification of entities, relations, and coreference

for scientific knowledge graph construction

七種關係型別

一條資料集包含:

clusters 共指集群

[[6

,11],

[21,21

],[53

,53]]

比如最開頭的這個集群,表示6到11個單詞,第21個單詞,第53個單詞,指的是同乙個實體。

sentence裡的單詞計數是從0開始。

這三對單詞分別是:

「category」, 「cooccurrence」, 「restrictions」, 「-lrb-」, 「ccrs」, 「-rrb-」;

「ccrs」,

「ccrs」

sentences 句子集群

有幾層外中括號,就分別對應sentences裡的幾個句子。

ner 命名實體識別答案

有幾層外中括號,就分別對應sentences裡的幾個句子。

每個中括號裡描述的當前句子裡的命名實體識別

[4,

11,"task"

]

第乙個數字代表實體的開頭,第二個是實體的結尾。

「task」 是實體型別

relations 關係答案

有幾層外中括號,就分別對應sentences裡的幾個句子。

每個中括號裡描述的當前句子裡的關係

[69,

69,82,

83,"used-for"

]

四個數字分別是主體開頭、主體結尾、客體開頭、客體結尾。

「used-for」 是關係型別

doc_key 文章編號

HEVC SPS引數集解析

以下是對每乙個語法元素的討論解釋 1 sps video parameter set id 指定了當前活動的vps的id號,當前例子的取值為0,這也與前文的vps解析的結果一直 2 sps max sub layers minus1 該值 1表示引用該sps的cvs所包含的最大時域子層數,取值範圍0...

4 5 Cifar10資料集解析

import glob import os import numpy as np import cv2 classification airplane automobile bird cat deer dog frog horse ship truck def unpick file 這是cifar...

COCO資料集解讀

cver必然要對microsoft coco資料集有一定的了解,今天就對coco做一點解讀。關於coco的介紹應該能看懂,這裡我們只強調一下重要資訊。看一下標註檔案,不同的檔案對應不同的task,比如instances train2017.json是檢測與分割任務的訓練集標註。再關注一下檔案細節,其...