高效讀取詞向量的方法

2022-06-16 09:42:09 字數 538 閱讀 5941

當我們訓練的詞向量儲存為txt時候,如果不是直接讀取到記憶體,找對應詞的向量,這樣會非常耗時

方法1.用gensim讀取成model的形式,從記憶體中獲得資料

方法2.讀取txt檔案,用enumerate()將資料放到字典裡面,後期查詢的時候用這個字典,主要**如下:

1

for i, line in enumerate(codecs.open(emb_path, '

r', '

utf-8

')):

2 line =line.rstrip().split()

3if len(line) == word_dim + 1:

4 pre_trained[line[0]] =np.array(

5 [float(x) for x in line[1:]]

6).astype(np.float32)

7else

:8 emb_invalid += 1

TensorFlow高效讀取資料的方法

tfrecords其實是一種二進位制檔案,用來儲存 tf.train.example協議記憶體塊 protocol buffer 乙個example中包含features,features裡包含乙個名字為feature的字典,裡面是 key value 對,value是 乙個floatlis byt...

高效讀取資料的方法 TFRecord

參考了這篇部落格的內容,做了些增加修改 tfrecord 是google官方推薦的一種資料格式,是google專門為tensorflow設計的一種資料格式。實際上,tfrecord是一種二進位制檔案,其能更好的利用記憶體,其內部包含了多個tf.train.example,而example是proto...

TensorFlow高效讀取資料的方法

tensorflow高效讀取資料的方法 關於tensorflow讀取資料,官網給出了三種方法 供給資料 feeding 在tensorflow程式執行的每一步,讓python 來供給資料。從檔案讀取資料 在tensorflow圖的起始,讓乙個輸入管線從檔案中讀取資料。預載入資料 在tensorflo...