05 NLP訓練營詞向量

分布式表示法不依賴於詞典，向量裡面都是非零的資料，解決了one-hot向量表示的稀疏性和向量長度過大的問題。one-hot向量維度要和詞典一樣，而分布式表示法維度通常小於300。

先來看看上面的分布式表示法再來計算相似度。

歐式距離：

因此可以得到結論是：

sim(運動，爬山)>sim(我們，爬山)

這個是符合我們的預期的。

我們把這種分布式表示方法稱為詞向量（word vector），當然詞向量有很多種表示方式，分布式表示是其中一種。

思考：q：100維的one-hot 表示法最多可以表達多少個不同的單詞？

答：100的階乘。

q：100維的分布式表示法最多可以表達多少個不同的單詞？

答：正無窮多個。

了解完概率之後，下面來看看怎麼學習每乙個單詞的分布式表示（詞向量）。

輸入：string，當有多個文章或者句子，可以把他們直接做拼接，連成長字串。長度一般在109

∼1010

10^9\sim10^

109∼10

10左右。然後丟到模型裡面，常用的詞向量訓練模型可以有：

mf是矩陣分解，最後那個是高斯嵌入？

最後是生成分布表示的函式，寫做：dim

/ddim/d

dim/

d，其中dim代表訓練出來的詞向量的維度，可以是100/200/300等，相當於超引數。其他的引數不同的模型又有所不同，具體在學習每個模型的時候再講解。

由於輸入的資料比較大，通常我們都是用大公司訓練好的結果。我們只需要輸入詞語（key value）然後得到詞向量結果

這個很多**裡面有，隨便貼一點

有很多種方法，這裡講一種平均的方法。

以上計算結果就是：我們去運動這個句子的句向量。

NLP訓練營第六周

機器翻譯序列到序列注意力模型 machine translation,seq2seq and attention gru和nmt的高階作業 assignment 3.1 用神經網路做機器翻譯叫做nmt neural machine translation 課程前半部分講了機器翻譯的發展史。一開...

天池python訓練營Day05

天池python訓練營day05 字串字串就是一系列字元,在python中，用引號括起的是字串，其中的引號可以是單引號，也可以是雙引號，如下所示 a code block 字串樣式 the sun is shining brightly the sun is shining brightly 字串...

阿里天池python訓練營 day05總結

轉義字元描述反斜槓符號單引號雙引號 n換行 t橫向製表符 tab r回車符號描述 c格式化字元及其ascii碼 s格式化字串，用str 方法處理物件 r格式化字串，用rper 方法處理物件 d格式化整數 o格式化無符號八進位制數 x格式化無符號十六進製制數 x格式化無符號十六進製制數大...

05 NLP訓練營 詞向量

NLP訓練營 第六周

天池python訓練營Day05

阿里天池python訓練營 day05總結

相關推薦

05 NLP訓練營詞向量

NLP訓練營第六周