使用torchtext將文字轉為ID表示

概覽圖：

# 支援 json, dict, csv, tsv 檔案格式

path=path, format='csv', skip_header=true,

train='train.csv', validation='test.csv',

fields=[

('index', none),

('label', label_field),

('text', text_field)])

return train, dev

def word_cut(text):
# 此處傳入的是句子
# 去除異常符號，數字等操作可以在分詞之前操作
return [word for word in text.split(' ')]
text_field.tokenize = word_cut # 文字分詞，可以使用其他分詞技術先進行資料預處理之後再載入
def preprocess(text):
# 去除停止詞，同義詞替換等操作
pass
text_field.preprocessing  = preprocess # 預處理程式，tokenize之後numericalizing之前執行
def postprocess(text):
pass
text_field.postprocessing  = postprocess # 該函式在numericalizing之後但資料型別未轉成tensor之前

# 可以選擇根據當前資料進行詞彙表的構建；也可以根據預訓練好的模型進行詞彙表的構建（第二種效果更好）
# 構建詞彙表後，word將全部由id替代
text_field.build_vocab(train_dataset, dev_dataset)
if args.static and args.pretrained_name and args.pretrained_path:
vectors = vectors(name=args.pretrained_name, cache=args.pretrained_path)
text_field.build_vocab(train_dataset, dev_dataset, vectors=vectors)
else:
text_field.build_vocab(train_dataset, dev_dataset)

train_iter, dev_iter = data.iterator.splits(
(train_dataset, dev_dataset),
batch_sizes=(batch_size, len(dev_dataset)),
sort_key=lambda x: len(x.text),
**kwargs)

使用diskgenius將GPT轉MBR問題

使用diskgenius將gpt轉mbr轉換時提示 more than 4 primary partitions。mbr只支援乙個硬碟上最大4個主分割槽 primary partition 需要注意的是，mbr只支援4個主分割槽，不是4個分割槽。擴充套件分割槽是一種特殊的主分割槽。擴充套件分割槽裡面...

IOS 系統文字轉英文本母

nsmutablestring ms1 nsmutablestring alloc initwithstring 重力加速度 if cfstringtransform bridge cfmutablestringref ms1,0,kcfstringtransformmandarinlatin,no...

java將漢語轉拼音

首先需要匯入這個jar import net.sourceforge.pinyin4j.pinyinhelper import net.sourceforge.pinyin4j.format.hanyupinyincasetype import net.sourceforge.pinyin4j.fo...

使用torchtext將文字轉為ID表示

使用diskgenius將GPT轉MBR問題

IOS 系統文字轉英文本母

java將漢語轉拼音

相關推薦