Item2vec 方法的特點和侷限性

2022-09-19 13:06:12 字數 736 閱讀 1853

1. item2vec 作為 word2vec 模型的推廣,理論上可以利用任何序列型資料生成物品的 embedding 向量, 這大大拓展了 word2vec 的應用場景。廣義上的 item2vec 模型其實是物品向量化方法的統稱,它可以利用不同的深度學習網路結構對物品特徵進行 embedding 化。

2. item2vec 方法也有其侷限性,因為只能利用序列型資料,所以 item2vec 在處理網際網路場景下大量的網路化資料時往往顯得捉襟見肘,這就是 graph embedding 技術出現的動因

item2vec 是建立在 「序列」 樣本 (e.g. 使用者行為序列) 的基礎上的。而在網際網路場景下,資料物件之間更多呈現的是圖結構。典型的場景是由使用者行為資料生成的物品關係圖,以及由屬性和實體組成的知識圖譜 (knowledge graph)。在面對圖結構時,傳統的序列 embedding 方法就顯得力不從心了。在這樣的背景下,graph embedding 成了新的研究方向,並逐漸在深度學習推薦系統領域流行起來。

graph embedding 是一種對圖結構中的節點進行 embedding 編碼的方法。最終生成的節點 embedding 向量一般包含圖的結構資訊及附近節點的區域性相似性資訊。

deepwalk 的主要思想是在由物品組成的圖結構上進行隨機遊走,產生大量物品序列,然後將這些物品序列作為訓練樣本輸入 word2vec 進行訓練,得到物品的 embedding。因此,deepwalk 可以被看作連線序列 embedding 和 graph embedding 的過渡方法。

MATLAB中的ind2vec和vec2ind函式

先說容易理解的vec2ind吧,從命令名字上可以看出是 向量變索引 假設乙個3 6的稀疏矩陣t 1,0 1 0 0 1 0 t 2,1 0 1 1 0 0 t 3,0 0 0 0 0 1 通過vec2ind t 將會得到什麼?因為通過矩陣知道t是6列的,t 0 1 0 0 1 0 1 0 1 1 0...

使用word2vec的幾種方法

使用word2vec的幾種方法 先導入可能用到的包 from gensim.models import word2vec import gensim.models.word2vec as w2v第一種 語料放在檔案裡面,這個語料是先要分好詞的 source code path data source...

word2vec 和 glove 模型的區別

2019 09 09 15 36 13 問題描述 word2vec 和 glove 這兩個生成 word embedding 的演算法有什麼區別。問題求解 glove global vectors for word representation 與word2vec,兩個模型都可以根據詞彙的 共現 c...