XX2Vec演算法彙總

2021-07-10 22:30:35 字數 1440 閱讀 1569

xx2vec

embed

insup/unsup

algorithms used

char2vec

character

sentence

unsupervised

cnn -> lstm

word2vec

word

sentence

unsupervised

annglove

word

sentence

unsupervised

sgddoc2vec

paragraph vector

document

supervised

ann -> logistic regression

image2vec

image elements

image

unsupervised

dnnvideo2vec

video elements

video

supervised

cnn -> mlp

強大的word2vec演算法激發了許多其他的演算法,李在上表中。(對於word2vec的說明,參閱2015spark峰會我的演講.)word2vec是對單詞分配向量的便捷方式,而且響亮是機器學習的貨幣。一旦你向量化你的資料,你可以自由應用任何機器學習演算法。

word2vec能夠通過嵌入的概念關聯到向量。在語料庫中,乙個單詞出現在周圍單詞的上下文,word2vec使用這些同現推斷單詞間的關係。

所有列在上表的xx2vec演算法為x分配向量,x是嵌入在大文字y中。

但是相似之處到此為止。每個xx2vec演算法不僅有專有適合領域,而且使用情形也是不一樣的。例如,doc2vec是監督學習,其他大多數是非監督學習。doc2vec的目標是能夠標記文件,word2vec和其他xx2vec演算法的目的只是**出向量,用於你下一步機器學習和分析。

下面是每個xx2vec演算法的簡要說明。

char2vec執行於字符集,對拼寫錯誤更加寬容,因此可以更好的分析tweets,使用者產品評價等等。

如上所述。還有一點是:它是不合理有效演算法之一。如果你願意可以碰碰運氣。

關於將單詞嵌入一些數學中,而不是從神經網路中抽取權重並盼望其工作,已經取得了一些成就。glove目前是這方面的旗手。模型從一開始支援尋找類似,而不是僅僅在word2vec中碰運氣。

實際上,doc2vec使用word2vec作為第一步。然後從有利於word2vec的單詞向量中對每個句子或段落生成復合向量。復合對段落或句子給出總體背景的某種形式,然後復合向量作為額外單詞插入到句子或段落開始。段落向量和單詞向量使用文件的人工標籤,一起訓練監督學習分類器。

word2vec有意使用乙個淺神經網路,image2vec使用乙個深層神經網路,組合從網路多層的權重所得的結果向量。影象袁術可能由這些權重代表,包括影象片段(草,鳥,籬笆等等),或整體影象質量,比如顏色。

MATLAB中的ind2vec和vec2ind函式

先說容易理解的vec2ind吧,從命令名字上可以看出是 向量變索引 假設乙個3 6的稀疏矩陣t 1,0 1 0 0 1 0 t 2,1 0 1 1 0 0 t 3,0 0 0 0 0 1 通過vec2ind t 將會得到什麼?因為通過矩陣知道t是6列的,t 0 1 0 0 1 0 1 0 1 1 0...

與word2vec 原來word2vec那麼簡單

說到word2vec,它可謂非結構化資料裡面的佼佼者,尤其是在推薦和nlp當中,足以體現它的優勢所在,並且多年一直備受工業界喜愛.那麼word2vec到底是怎麼個原理的,發現身邊總是有很多人問,確不能準確的說出為什麼是兩個矩陣,到底是怎麼自動反向傳播的,以及對於softmax之後那麼大的維度資料,是...

1xx 和 2xx 系列狀態碼

1xx 系列 1xx 系列一般是用在伺服器與 之間,表示一些資訊,這在我們寫服務端程式時並不常用,並且 1xx 系列狀態碼是在 http 1.1 中才加入的,按照 w3c 的說法,除非在實驗性的環境下,不要傳送 1xx 系列狀態碼到使用 http 1.0 協議的客戶端。如果需要了解兩個 1xx 系列...