關於bert的無監督聚類的一些說法
1.首先一點是在不finetune的情況下,cosine similairty絕對值沒有實際意義,bert pretrain計算的cosine similairty都是很大的,如果你直接以cosine similariy>0.5之類的閾值來判斷相似不相似那肯定效果很差。如果用做排序,也就是cosine(a,b)>cosine(a,c)->b相較於c和a更相似,是可以用的。總而言之就是你模型評價的標準應該使用auc,而不是accuracy
2.短文本(新聞標題)語義相似度任務用先進的word embedding(英文fasttext/glove,中文tencent embedding)mean pooling後的效果就已經不錯;而對於長文字(文章)用simhash這種純詞頻統計的完全沒語言模型的簡單方法也ok
3.bert pretrain模型直接拿來用作 sentence embedding效果甚至不如word embedding,cls的emebdding效果最差(也就是你說的pooled output)。把所有普通token embedding做pooling勉強能用(這個也是開源專案bert-as-service的預設做法),但也不會比word embedding更好。
4.用siamese的方式訓練bert,上層通過cosine做判別,能夠讓bert學習到一種適用於cosine作為最終相似度判別的sentence embedding,效果優於word embedding,但因為缺少sentence pair之間的特徵互動,比原始bert sentence pair fine tune還是要差些。參考siamese bert
和 對比 對比自監督學習
編譯 ronghuaiyang 對比自監督學習 mp.weixin.qq.com 利用資料本身為演算法提供監督。對比自監督學習技術是一種很有前途的方法,它通過學習對使兩種事物相似或不同的東西進行編碼來構建表示。自監督方法將取代深度學習中佔主導地位的直接監督正規化的預言已經存在了相當一段時間。alyo...
對比學習 自監督學習的理解
自監督學習定義 自監督學習主要是利用輔助任務從大規模的無監督資料中挖掘自身的監督資訊來提高學習表徵的質量,通過這種構造監督資訊對網路進行訓練,從而可以學習到對下游任務具有價值的表徵。輔助任務 pretext 可以認為是一種為達到特定訓練任務而設計的間接任務。pretext任務的好處是為了簡化原任務的...
自監督學習之SimCLR總結
本文提出了simclr 乙個生成視覺表達 representation 的簡單對抗學習框架。我們簡化了近些年提出的對抗學習的框架,我們的演算法不需要特殊的結構和龐大的儲存體 memory bank 為了理解到底什麼使得這種對抗學習能夠學得有用3的表達,我們系統的研究了我們框架中的基本的元件 1.資料...