儲存模型訓練資料快取的一些忠告

2021-10-20 13:30:17 字數 443 閱讀 2677

很多時候我們搞nlp的需要處理文字，而文字feed給模型之前肯定要經過tokenization（分詞）、serialize(序列化)、vectorization（向量化）。這個過程中我們多半會選擇把預處理好的資料先cache起來，這樣就不用下一次跑**的時候重新處理了，尤其是像embedding之類的，比方說elmo。

但是這個cache的過程中也有很多問題，自己總結了兩點經驗：

如果你想要cache一些快取，比方說elmo representation,那麼我勸你還是放棄吧，很麻煩的。時間複雜度高是乙個，關鍵是就算cache成功，load過來就直接把你ram搞大(我試過pickle load，隨後立即封裝dataset，因為有re的關係吧，ram占用居高)，一般想要cache，選擇那些dim為1的，比方說bert的token_idx.

有關於儲存：

儲存層以及快取的一些想法

近日工作中有乙個動作是去updatedb中的資料，更新了幾十萬條資料。更新完了，業務測試沒有通過。但是在test環境是ok的。首先說說公司的上線流程是 dev test uat regression live.對應的是開發測試業務測試需求方回歸測試測試對所有ticket進行整體回歸上線...

清空memcache快取的一些資料

近日，乙個專案需要用到定時重新整理快取資料，因此想到清空memcache快取，來達到重新整理資料的目的 1.查memcache狀態 usr bin perl usr local src memcached 1.4.5 scripts memcached tool localhost 11211 或者...

給未婚人的一些忠告

1.不要為了寂寞去戀愛，時間是個魔鬼，天長日久，如果你是個多情的人，即使不愛對方，到時候也會產生感情，到最後你怎麼辦？2.不要為了負責而去結婚。要知道，不愛對方卻和對方結婚是最不負責的。即使當時讓對方很傷心，但是總比讓他幾年甚至一輩子傷心強。3.不管多大多老，不管家人朋友怎麼催，都不要隨便對待婚姻，...