當我們訓練的詞向量儲存為txt時候,如果不是直接讀取到記憶體,找對應詞的向量,這樣會非常耗時
方法1.用gensim讀取成model的形式,從記憶體中獲得資料
方法2.讀取txt檔案,用enumerate()將資料放到字典裡面,後期查詢的時候用這個字典,主要**如下:
1for i, line in enumerate(codecs.open(emb_path, '
r', '
utf-8
')):
2 line =line.rstrip().split()
3if len(line) == word_dim + 1:
4 pre_trained[line[0]] =np.array(
5 [float(x) for x in line[1:]]
6).astype(np.float32)
7else
:8 emb_invalid += 1
TensorFlow高效讀取資料的方法
tfrecords其實是一種二進位制檔案,用來儲存 tf.train.example協議記憶體塊 protocol buffer 乙個example中包含features,features裡包含乙個名字為feature的字典,裡面是 key value 對,value是 乙個floatlis byt...
高效讀取資料的方法 TFRecord
參考了這篇部落格的內容,做了些增加修改 tfrecord 是google官方推薦的一種資料格式,是google專門為tensorflow設計的一種資料格式。實際上,tfrecord是一種二進位制檔案,其能更好的利用記憶體,其內部包含了多個tf.train.example,而example是proto...
TensorFlow高效讀取資料的方法
tensorflow高效讀取資料的方法 關於tensorflow讀取資料,官網給出了三種方法 供給資料 feeding 在tensorflow程式執行的每一步,讓python 來供給資料。從檔案讀取資料 在tensorflow圖的起始,讓乙個輸入管線從檔案中讀取資料。預載入資料 在tensorflo...