使用torchtext將文字轉為ID表示

2021-10-01 04:30:54 字數 1664 閱讀 4311

概覽圖:

# 支援 json, dict, csv, tsv 檔案格式

path=path, format='csv', skip_header=true,

train='train.csv', validation='test.csv',

fields=[

('index', none),

('label', label_field),

('text', text_field)])

return train, dev

def word_cut(text):

# 此處傳入的是句子

# 去除異常符號,數字等操作可以在分詞之前操作

return [word for word in text.split(' ')]

text_field.tokenize = word_cut # 文字分詞,可以使用其他分詞技術先進行資料預處理之後再載入

def preprocess(text):

# 去除停止詞,同義詞替換等操作

pass

text_field.preprocessing = preprocess # 預處理程式,tokenize之後numericalizing之前執行

def postprocess(text):

pass

text_field.postprocessing = postprocess # 該函式在numericalizing之後但資料型別未轉成tensor之前

# 可以選擇根據當前資料進行詞彙表的構建;也可以根據預訓練好的模型進行詞彙表的構建(第二種效果更好)

# 構建詞彙表後,word將全部由id替代

text_field.build_vocab(train_dataset, dev_dataset)

if args.static and args.pretrained_name and args.pretrained_path:

vectors = vectors(name=args.pretrained_name, cache=args.pretrained_path)

text_field.build_vocab(train_dataset, dev_dataset, vectors=vectors)

else:

text_field.build_vocab(train_dataset, dev_dataset)

train_iter, dev_iter = data.iterator.splits(

(train_dataset, dev_dataset),

batch_sizes=(batch_size, len(dev_dataset)),

sort_key=lambda x: len(x.text),

**kwargs)

使用diskgenius將GPT轉MBR問題

使用diskgenius將gpt轉mbr轉換時提示 more than 4 primary partitions。mbr只支援乙個硬碟上最大4個主分割槽 primary partition 需要注意的是,mbr只支援4個主分割槽,不是4個分割槽。擴充套件分割槽是一種特殊的主分割槽。擴充套件分割槽裡面...

IOS 系統文字轉英文本母

nsmutablestring ms1 nsmutablestring alloc initwithstring 重力加速度 if cfstringtransform bridge cfmutablestringref ms1,0,kcfstringtransformmandarinlatin,no...

java將漢語轉拼音

首先需要匯入這個jar import net.sourceforge.pinyin4j.pinyinhelper import net.sourceforge.pinyin4j.format.hanyupinyincasetype import net.sourceforge.pinyin4j.fo...