很多時候我們搞nlp的需要處理文字,而文字feed給模型之前肯定要經過tokenization(分詞)、serialize(序列化)、vectorization(向量化)。這個過程中我們多半會選擇把預處理好的資料先cache起來,這樣就不用下一次跑**的時候重新處理了,尤其是像embedding之類的,比方說elmo。
但是這個cache的過程中也有很多問題,自己總結了兩點經驗:
如果你想要cache一些快取,比方說elmo representation,那麼我勸你還是放棄吧,很麻煩的。時間複雜度高是乙個,關鍵是就算cache成功,load過來就直接把你ram搞大(我試過pickle load,隨後立即封裝dataset,因為有re的關係吧,ram占用居高),一般想要cache,選擇那些dim為1的,比方說bert的token_idx.
有關於儲存:
儲存層以及快取的一些想法
近日工作中有乙個動作是去updatedb中的資料,更新了幾十萬條資料。更新完了,業務測試沒有通過。但是在test環境是ok的。首先說說公司的上線流程是 dev test uat regression live.對應的是 開發 測試 業務測試 需求方 回歸測試 測試對所有ticket進行整體回歸 上線...
清空memcache快取的一些資料
近日,乙個專案需要用到定時重新整理快取資料,因此想到清空memcache快取,來達到重新整理資料的目的 1.查memcache狀態 usr bin perl usr local src memcached 1.4.5 scripts memcached tool localhost 11211 或者...
給未婚人的一些忠告
1.不要為了寂寞去戀愛,時間是個魔鬼,天長日久,如果你是個多情的人,即使不愛對方,到時候也會產生感情,到最後你怎麼辦?2.不要為了負責而去結婚。要知道,不愛對方卻和對方結婚是最不負責的。即使當時讓對方很傷心,但是總比讓他幾年甚至一輩子傷心強。3.不管多大多老,不管家人朋友怎麼催,都不要隨便對待婚姻,...