分布式表示法不依賴於詞典,向量裡面都是非零的資料,解決了one-hot向量表示的稀疏性和向量長度過大的問題。one-hot向量維度要和詞典一樣,而分布式表示法維度通常小於300。
先來看看上面的分布式表示法再來計算相似度。
歐式距離:
因此可以得到結論是:
sim(運動,爬山)>sim(我們,爬山)
這個是符合我們的預期的。
我們把這種分布式表示方法稱為詞向量(word vector),當然詞向量有很多種表示方式,分布式表示是其中一種。
思考:q:100維的one-hot 表示法最多可以表達多少個不同的單詞?
答:100的階乘。
q:100維的分布式表示法最多可以表達多少個不同的單詞?
答:正無窮多個。
了解完概率之後,下面來看看怎麼學習每乙個單詞的分布式表示(詞向量)。
輸入:string,當有多個文章或者句子,可以把他們直接做拼接,連成長字串。長度一般在109
∼1010
10^9\sim10^
109∼10
10左右。然後丟到模型裡面,常用的詞向量訓練模型可以有:
mf是矩陣分解,最後那個是高斯嵌入?
最後是生成分布表示的函式,寫做:dim
/ddim/d
dim/
d,其中dim代表訓練出來的詞向量的維度,可以是100/200/300等,相當於超引數。其他的引數不同的模型又有所不同,具體在學習每個模型的時候再講解。
由於輸入的資料比較大,通常我們都是用大公司訓練好的結果。我們只需要輸入詞語(key value)然後得到詞向量結果
這個很多**裡面有,隨便貼一點
有很多種方法,這裡講一種平均的方法。
以上計算結果就是:我們去運動這個句子的句向量。
NLP訓練營 第六周
機器翻譯 序列到序列 注意力模型 machine translation,seq2seq and attention gru和nmt的高階 作業 assignment 3.1 用神經網路做機器翻譯叫做nmt neural machine translation 課程前半部分講了機器翻譯的發展史。一開...
天池python訓練營Day05
天池python訓練營day05 字串 字串就是一系列字元,在python中,用引號括起的是字串,其中的引號可以是單引號,也可以是雙引號,如下所示 a code block 字串樣式 the sun is shining brightly the sun is shining brightly 字串...
阿里天池python訓練營 day05總結
轉義字元 描述 反斜槓符號 單引號 雙引號 n換行 t橫向製表符 tab r回車 符 號描述 c格式化字元及其ascii碼 s格式化字串,用str 方法處理物件 r格式化字串,用rper 方法處理物件 d格式化整數 o格式化無符號八進位制數 x格式化無符號十六進製制數 x格式化無符號十六進製制數 大...