09 NLP訓練營 基於語言模型生成句子

2021-10-03 07:37:46 字數 597 閱讀 5382

公式輸入請參考:

當乙個模型訓練好後,我們可以利用這個模型來生成一些資料,就是生成模型。例如:生成句子,**,影象,程式等。

當然還有判別模型。

假如上圖是我們的詞庫,然後每乙個詞對應的概率已經訓練好了,然後用unigram來生成乙個句子:

由於unigram是不考慮上下文的,所以這個句子完全就隨機根據單詞的概率取的下乙個詞。

下面看bigram如何生成一句話。

先根據詞庫寫出每個詞後面接另外乙個詞的概率矩陣,大小是7*7,包含了6個單詞和乙個終止符

如果第乙個單詞取樣到i,那麼可以從矩陣上可以看到,i後面跟like的機率最大。這樣以此類推,直到取樣到句號為止。

如果bigram的模型訓練得很好,通過取樣得到的語句是比較通順的。

NLP訓練營 第六周

機器翻譯 序列到序列 注意力模型 machine translation,seq2seq and attention gru和nmt的高階 作業 assignment 3.1 用神經網路做機器翻譯叫做nmt neural machine translation 課程前半部分講了機器翻譯的發展史。一開...

05 NLP訓練營 詞向量

分布式表示法不依賴於詞典,向量裡面都是非零的資料,解決了one hot向量表示的稀疏性和向量長度過大的問題。one hot向量維度要和詞典一樣,而分布式表示法維度通常小於300。先來看看上面的分布式表示法再來計算相似度。歐式距離 因此可以得到結論是 sim 運動,爬山 sim 我們,爬山 這個是符合...

02 NLP訓練營 遞迴演算法複雜度

遞迴實現與迴圈實現 問答系統介紹 公式輸入請參考 歸併排序直接看資料結構了解什麼意思,後面的主定理master theorem是專門用來算遞迴演算法的複雜度的方法,具體看這裡 master theorem 主定理的證明和使用 我就偷懶不寫公式了。總之,主定理裡面三個條件算出來的,誰大就要誰作為時間複...