目前詞向量的評估一般分為兩大類:extrinsic evaluation和 intrinsic evaluation。即內部評估和外部評估。
內部評估直接衡量單詞之間的句法和語義關係。這些任務通常涉及一組預先選擇的查詢術語和語義相關的目標詞彙,我們將其稱為query inventory
。
當前絕大部分工作(比如以各種方式改進 word embedding)都是依賴wordsim353 等詞彙相似性資料集進行相關性度量,並以之作為評價 word embedding 質量的標準。然而,這種基於 similarity 的評價方式對訓練資料大小、領域、**以及詞表的選擇非常敏感。而且資料集太小,往往並不能充分說明問題。
評價資料集往往是成對的單詞,兩個單詞的 embedding 余弦相似度計算出來應該具有較高的相關性(spearman 或 pearson)和人的主觀評價分數。
假設給了一對單詞 (a , b) 和乙個單獨的單詞 c,task 會找到乙個單詞 d,使得 c 與 d 之間的關係相似於 a 與 b 之間的關係。舉個簡單的例子:(中國,北京)和 日本,應該找到的單詞應該是東京,因為北京是中國的首都,而東京也是日本的首都。 在給定 word embedding 的前提下,task 一般是通過在詞向量空間尋找離 (b-a+c) 最近的詞向量來找到 d。
比如詞性標註、命名實體識別、句法分析、句子分類等,將詞向量作為輸入,衡量下游任務指標效能的變化。
但這種評估只能方法只是提供了一種證明 embedding 優點的方法,而不清楚它是如何與其他衡量指標聯絡其他的。也就是說,基於具體應用的評價是一種間接方式,中間還隔了一層。
雖說如此,根據** evaluation methods for unsupervised word embeddings,還是這種方法最好,並且此**提出了新的評估方法。
也可以做視覺化來展示評估,使用 t-sne 等。
NLP(四)詞向量
關於word2vec的原理網上很詳細了 本文 共2種詞向量轉換方式 1 獨熱編碼 2 word2vec from sklearn.preprocessing import labelencoder one hot labelencoder 輸入為列表好像也可以 word vector one hot...
nlp期末複習 詞向量
1 不能體現詞的含義進行編碼 one hot 2 單詞按照含義進行編碼成向量的方式稱為word embedding word embedding word2vec cbow skip gram glove 3 從word embedding到bert模型 無法解決詞的多義問題 缺點 word emb...
莫煩nlp 詞向量 skim gram
將訓練的句子人工分為兩派 數字派,字母派 雖然都是文字,但是期望模型能自動區分出在空間上,數字和字母是有差別的。因為數字總是和數字一同出現,而字母總是和字母一同出現。臥底數字 9 的任務就是把字母那邊的情報向數字通風報信。所以期望的樣子就是數字 9 不但靠近數字,而且也靠近字母。上一節已經介紹了cb...