概覽圖:
# 支援 json, dict, csv, tsv 檔案格式
path=path, format='csv', skip_header=true,
train='train.csv', validation='test.csv',
fields=[
('index', none),
('label', label_field),
('text', text_field)])
return train, dev
def word_cut(text):
# 此處傳入的是句子
# 去除異常符號,數字等操作可以在分詞之前操作
return [word for word in text.split(' ')]
text_field.tokenize = word_cut # 文字分詞,可以使用其他分詞技術先進行資料預處理之後再載入
def preprocess(text):
# 去除停止詞,同義詞替換等操作
pass
text_field.preprocessing = preprocess # 預處理程式,tokenize之後numericalizing之前執行
def postprocess(text):
pass
text_field.postprocessing = postprocess # 該函式在numericalizing之後但資料型別未轉成tensor之前
# 可以選擇根據當前資料進行詞彙表的構建;也可以根據預訓練好的模型進行詞彙表的構建(第二種效果更好)
# 構建詞彙表後,word將全部由id替代
text_field.build_vocab(train_dataset, dev_dataset)
if args.static and args.pretrained_name and args.pretrained_path:
vectors = vectors(name=args.pretrained_name, cache=args.pretrained_path)
text_field.build_vocab(train_dataset, dev_dataset, vectors=vectors)
else:
text_field.build_vocab(train_dataset, dev_dataset)
train_iter, dev_iter = data.iterator.splits(
(train_dataset, dev_dataset),
batch_sizes=(batch_size, len(dev_dataset)),
sort_key=lambda x: len(x.text),
**kwargs)
使用diskgenius將GPT轉MBR問題
使用diskgenius將gpt轉mbr轉換時提示 more than 4 primary partitions。mbr只支援乙個硬碟上最大4個主分割槽 primary partition 需要注意的是,mbr只支援4個主分割槽,不是4個分割槽。擴充套件分割槽是一種特殊的主分割槽。擴充套件分割槽裡面...
IOS 系統文字轉英文本母
nsmutablestring ms1 nsmutablestring alloc initwithstring 重力加速度 if cfstringtransform bridge cfmutablestringref ms1,0,kcfstringtransformmandarinlatin,no...
java將漢語轉拼音
首先需要匯入這個jar import net.sourceforge.pinyin4j.pinyinhelper import net.sourceforge.pinyin4j.format.hanyupinyincasetype import net.sourceforge.pinyin4j.fo...