詞向量、詞嵌入或者稱為詞的分布式表示,區別於以往的獨熱表示,已經成為自然語言任務中的乙個重要工具,對於詞向量並沒有直接的方法可以評價其質量,下面介紹幾種間接的方法。
對於詞向量的評價更多還是應該考慮對實際任務的收益,脫離的實際任務很難確定a模型就一定比b好,畢竟詞向量方法更多是一種工具。
學生 上課 0.78
教師 備課 0.8
...
上述檔案代表了詞語之間的語義相關性,我們利用標註檔案與訓練出來的詞向量相似度進行比較,如:詞向量之間的cos距離等,確定損失函式,便可以得到乙個評價指標。
但這種方法首先需要人力標註,且標註的準確性對評價指標影響非常大。
這個任務詞向量來考察不同單詞間的語義關係能力,一般給定三個詞,如a、b、c,要求尋找a+b = c + ?任務中最相似的詞,一般使用向量間距離來進行尋找,如:
queen-king+man=women
同樣需要準備標記檔案,根據尋找出來的詞的正確率判斷詞向量的質量。
這個任務利用詞向量構成文字向量,一般採用求和平均的方式,之後利用構成的文字向量進行文字分類,根據分類的準備率等指標衡量詞向量的質量。
對於自然語言處理任務,在模型效果相差不大的情況下,選用簡單的模型。
同樣,複雜的模型對於大規模的語料效果更為明顯,小語料盡量用簡單模型。
選用與自然語言任務同領域的語料,提公升效果會非常明顯,在一定語料規模範圍內,語料越大,效果越好;如果使用不同領域的語料,甚至會有反面效果。
在語料的選擇上,同領域的語料比大規模的其他領域語料重要。
向量維度太小難以表現出語義的複雜度,一般更大的維度的向量表現能力更強,綜合之下,50維的向量可以勝任很多任務。
詞向量簡介
1.什麼是詞向量?每乙個詞典 裡面存著一堆單詞,例如 用nn.embedding模組進行詞嵌入 輸出的就是對應的詞向量。2.什麼是 nn.embedding torch.nn.embedding理解 看這個解釋 3.如何訓練乙個詞向量?skip gram 模型 雖然這個任務並沒有什麼卵用,但它可以幫...
NLP 如何評估詞向量
目前詞向量的評估一般分為兩大類 extrinsic evaluation和 intrinsic evaluation。即內部評估和外部評估。內部評估直接衡量單詞之間的句法和語義關係。這些任務通常涉及一組預先選擇的查詢術語和語義相關的目標詞彙,我們將其稱為query inventory。當前絕大部分工...
詞向量與句向量概述
比較常見的詞向量表示方式 glove fasttext wordrank tfidf bow word2vec 詞向量一般看作是文件特徵,不同詞向量有不同用法,主要有四類詞向量 1.hash演算法及衍生 2.bow演算法延伸 3.word2vec延伸 4.lda主題延伸 乙個詞一列向量 hash演算...