05 NLP訓練營 詞向量

2021-10-03 05:41:40 字數 1310 閱讀 3414

分布式表示法不依賴於詞典,向量裡面都是非零的資料,解決了one-hot向量表示的稀疏性和向量長度過大的問題。one-hot向量維度要和詞典一樣,而分布式表示法維度通常小於300。

先來看看上面的分布式表示法再來計算相似度。

歐式距離:

因此可以得到結論是:

sim(運動,爬山)>sim(我們,爬山)

這個是符合我們的預期的。

我們把這種分布式表示方法稱為詞向量(word vector),當然詞向量有很多種表示方式,分布式表示是其中一種。

思考:q:100維的one-hot 表示法最多可以表達多少個不同的單詞?

答:100的階乘。

q:100維的分布式表示法最多可以表達多少個不同的單詞?

答:正無窮多個。

了解完概率之後,下面來看看怎麼學習每乙個單詞的分布式表示(詞向量)。

輸入:string,當有多個文章或者句子,可以把他們直接做拼接,連成長字串。長度一般在109

∼1010

10^9\sim10^

109∼10

10左右。然後丟到模型裡面,常用的詞向量訓練模型可以有:

mf是矩陣分解,最後那個是高斯嵌入?

最後是生成分布表示的函式,寫做:dim

/ddim/d

dim/

d,其中dim代表訓練出來的詞向量的維度,可以是100/200/300等,相當於超引數。其他的引數不同的模型又有所不同,具體在學習每個模型的時候再講解。

由於輸入的資料比較大,通常我們都是用大公司訓練好的結果。我們只需要輸入詞語(key value)然後得到詞向量結果

這個很多**裡面有,隨便貼一點

有很多種方法,這裡講一種平均的方法。

以上計算結果就是:我們去運動這個句子的句向量。

NLP訓練營 第六周

機器翻譯 序列到序列 注意力模型 machine translation,seq2seq and attention gru和nmt的高階 作業 assignment 3.1 用神經網路做機器翻譯叫做nmt neural machine translation 課程前半部分講了機器翻譯的發展史。一開...

天池python訓練營Day05

天池python訓練營day05 字串 字串就是一系列字元,在python中,用引號括起的是字串,其中的引號可以是單引號,也可以是雙引號,如下所示 a code block 字串樣式 the sun is shining brightly the sun is shining brightly 字串...

阿里天池python訓練營 day05總結

轉義字元 描述 反斜槓符號 單引號 雙引號 n換行 t橫向製表符 tab r回車 符 號描述 c格式化字元及其ascii碼 s格式化字串,用str 方法處理物件 r格式化字串,用rper 方法處理物件 d格式化整數 o格式化無符號八進位制數 x格式化無符號十六進製制數 x格式化無符號十六進製制數 大...