field類為可以由張量表示的常見文字處理資料型別建模。它包含乙個vocab物件,用於定義字段元素的可能值集及其對應的數字表示。field物件還包含與資料型別應如何數位化有關的其他引數,例如標記化方法和應生成的tensor型別。
如果在資料集中的兩列之間共享字段(例如,qa資料集中的問題和答案),則它們將具有共享詞彙表。
屬性:sequential:資料型別是否表示順序資料。如果為false,則不應用標記化。預設值:true。
use_vocab:是否使用vocab物件。如果為false,則此字段中的資料應已為數字。預設值:true。
init_token:將使用此欄位新增到每個示例的標記,如果沒有初始標記,則為none。預設值:無。
eos_token:將使用此欄位附加到每個示例的標記,或者對於沒有句末標記的none。預設值:無。
fix_length:使用此字段的所有示例都將填充到的固定長度,或者對於靈活的序列長度,為none。預設值:無。
dtype:torch.dtype類,表示此類資料的一批示例。預設值:torch.long。
預處理:在標記化之後但在數值化之前將使用此欄位應用於示例的管道。許多資料集使用自定義預處理器替換此屬性。預設值:無。
後處理:在數值化之後但在數字變為tensor之前將使用此欄位應用於示例的管道。管道功能將批處理作為列表和字段的vocab。預設值:無。
lower:是否小寫此字段中的文字。預設值:false。
tokenize:用於將使用此字段將字串標記為順序示例的函式。如果使用「spacy」,則使用spacy english tokenizer。預設值:str.split。
include_lengths:是否返回填充小批量的元組和包含每個示例長度的列表,或者只是填充的小批量。預設值:false。
batch_first:是否先生成具有批量維度的張量。預設值:false。
pad_token:用作填充的字串標記。預設值:「」。
unk_token:用於表示oov字的字串標記。預設值: 「」。
pad_first:在開頭填充序列的填充。預設值:false。
truncate_first:在開頭截斷序列。預設值:false
stop_words:在預處理步驟中丟棄的標記。預設值:無
is_target:此欄位是否為目標變數。影響批量迭代。預設值:false
定義以csv,tsv或json格式儲存的列的資料集。
引數:path(str):資料檔案的路徑。
format(str):資料檔案的格式。 「csv」,「tsv」或「json」之一(不區分大小寫)。
fields(list(tup(str,field))或dict [str:tuple(str,field)]:如果使用列表,格式必須是csv或tsv,列表的值應該是(name,字段應該與csv或tsv檔案中的列的順序相同,而(name,none)的元組表示將被忽略的列。如果使用dict,則鍵應該是json的子集鍵或csv / tsv列,值應為(名稱,字段)的元組。輸入字典中不存在的鍵將被忽略。這允許使用者從其json / csv / tsv鍵名稱重新命名列,並且還可以選擇要載入的列的子集。
skip_header(bool):是否跳過輸入檔案的第一行。
csv_reader_params(dict):傳遞給csv reader的引數。格式為csv或tsv時非常相關。
devmem 原始碼注釋
include include include include include include include include include include include define fatal do while 0 define map size 4096ul define map mask...
PyTorch原始碼安裝小記
torch是facebook air去年6月開源的深度學習框架,向g家的tensorflow看起,基於lua開發,可以充分利用gpu進行計算加速。pytorch是fair今年1月發布的,在原來基礎上提供python介面支援?也是正面剛支援py的tf吧。本來安裝pytorch比較簡單,按照官網,裝完a...
redis原始碼注釋 簡述
second60 20180510 有些人會問 學習一門技術最快的方法是什麼?答案很簡單 就是站在巨人的肩膀上,多看多多抄多練。第一 可以省去我們造輪子,四處碰壁的時間 第二 可以學習巨人的精髓,使自已能力不斷的提公升 第三 多抄,可以使自已寫 的風格像巨人一樣,如火純青 這篇檔案不講技術,純屬非技...