參考位址
在paddlehub中的例子需要構建資料集。demo中的**如下
dataset = hub.dataset.chnsenticorp(
)
當替換為自定義資料集時,首先需要將自己的資料集轉換為如下形式。
dataset = demodataset(dataset_dir=model_path)
from __future__ import absolute_import
from __future__ import division
from __future__ import print_function
from collections import namedtuple
import codecs
import os
import csv
from paddlehub.dataset import inputexample, hubdataset
class
demodataset
(hubdataset)
:"""demodataset"""
def__init__
(self,dataset_dir )
: self.dataset_dir = dataset_dir #模型路徑
self._load_train_examples(
) self._load_test_examples(
) self._load_dev_examples(
)def
_load_train_examples
(self)
: self.train_file = os.path.join(self.dataset_dir,
"train.tsv"
) self.train_examples = self._read_tsv(self.train_file)
def_load_dev_examples
(self)
: self.dev_file = os.path.join(self.dataset_dir,
"dev.tsv"
) self.dev_examples = self._read_tsv(self.dev_file)
def_load_test_examples
(self)
: self.test_file = os.path.join(self.dataset_dir,
"test.tsv"
) self.test_examples = self._read_tsv(self.test_file)
defget_train_examples
(self)
:return self.train_examples
defget_dev_examples
(self)
:return self.dev_examples
defget_test_examples
(self)
:return self.test_examples
defget_labels
(self)
:# 確定標籤,根據自己的資料集lable進行定義
"""define it according the real dataset"""
return
["0"
,"1"
] @property
defnum_labels
(self)
:"""
return the number of labels in the dataset.
"""return
len(self.get_labels())
def_read_tsv
(self, input_file, quotechar=
none):
"""reads a tab separated value file."""
with codecs.
open
(input_file,
"r", encoding=
"utf-8"
)as f:
reader = csv.reader(f, delimiter=
"\t"
, quotechar=quotechar)
examples =
seq_id =
0 header =
next
(reader)
# skip header
for line in reader:
example = inputexample(
guid=seq_id, label=line[0]
, text_a=line[1]
) seq_id +=
1return examples
Pytorch 自定義資料集
pytorch將資料集的處理過程標準化。繼承dataset類 pytorch中提供了torch.utils.data.dataset抽象類,使用時需要繼承這個類,並重寫 len 和 geiitem 函式。增加資料變換 pytorch提供了torchvision.transforms可以比較方便進行影...
pytorch 自定義資料集載入方法
更多python教程請到 菜鳥教程 pytorch 官網給出的例子中都是使用了已經定義好的特殊資料集介面來載入資料,而且其使用的資料都是官方給出的資料。如果我們有自己收集的資料集,如何用來訓練網路呢?此時需要我們自己定義好資料處理介面。幸運的是pytroch給出了乙個資料集介面類 torch.uti...
RDLC之自定義資料集一
標題 rdlc之自定義資料集 時間 2008年7月12日 目的 學習通過程式控制rdlc的資料集 內容 呈現職工資料,如圖 emp info.jpg 步驟 1 新建乙個web專案,如圖 new project.jpg 2 新增報表,如 圖 new report.jpg 3 新增資料集,如圖 new ...