torchtext是pytorch處理文字的乙個工具包,在學習pytorch的過程中遇到,就順便學習一下,也相應的做一下記錄。
我們在進行nlp任務時,對資料預處理一般分為:
dataset類:classtorchtext.data.dataset(examples, fields, filter_pred=none)
由field物件組成的資料集
變數:所有的資料集都是torch.text.data.dataset的子集,繼承自torch.utils.data.dataset
language modeling
classtorchtext.datasets.languagemodelingdataset(path, text_field, newline_eos=true, encoding='utf-8', **kwargs)
為lm定義的資料集,同樣繼承了split和iter方法
vocab
classtorchtext.vocab.vocab(counter, max_size=none, min_freq=1, specials=[''], vectors=none, unk_init=none, vectors_cache=none, specials_first=true)
這個其實就是之前text.build_vocab建立的字典,實踐的時候主要用到了stoi和itos兩個方法,記錄一下。
目前就用到了這麼幾種方法,留著之後再繼續更新吧~
使用torchtext將文字轉為ID表示
概覽圖 支援 json,dict,csv,tsv 檔案格式 path path,format csv skip header true,train train.csv validation test.csv fields index none label label field text text ...
學習筆記 雜湊學習筆記
hash基本原理 hash就是乙個像函式一樣的東西,你放進去乙個值,它給你輸出來乙個值。輸出的值就是hash值。一般hash值會比原來的值更好儲存 更小 或比較。那字串hash就非常好理解了。就是把字串轉換成乙個整數的函式。而且要盡量做到使字串對應唯一的hash值。它的主要思路是選取恰當的進製,可以...
學習筆記 CentOS 學習筆記01
簡單的做個課堂筆記 虛擬機器用的是vmware,系統是centos cd etc sysconfig network scripts pwdls 顯示列表 cat ifcfg eth0 檢視檔案內容 vi ifcfg eth0 進入vi編輯器 onboot no 原始設定 x逐字刪除 d刪除整行 a...