基於計數的n-gram語言模型:
出現的問題:
(1)資料稀疏,有些資料未出現過
(2)忽略語義的相關性,如「無聊」與「枯燥」雖然語義相似,但無法共享資訊。
詞語表示為:one-hot表示法。
基於分布式表示的n-gram語言模型:
出現的問題:
(1)詞向量:如何將每個詞對映到實數向量空間中的乙個點
(2)f函式的設計:設定什麼樣的神經網路結構模擬f函式
詞語表示為:基於連續空間的詞語表示。
詞表規模v和詞向量維度d如何確定:
–v的確定:1:訓練資料中所有詞;2:頻率高於某個閾值的所有詞;3:前v個頻率最高的詞。
–d的確定:超引數,人工設定,一般從幾十到幾百。
如何學習l:
–通常先隨機初始化,然後通過目標函式優化詞的向量表達(e.g.最大化語言模型似然度)。
語言模型:
前饋神經網路
問題:僅對小視窗的歷史資訊建模。例如5-gram語言模型,僅考慮前面4個詞的歷史資訊。
能否對所有的歷史資訊進行建模,即第t個詞的語言模型概率依賴於所有前t-1個詞。
語言模型:
迴圈神經網路
輸入:t-
1時刻的歷史與t時刻的輸入。
輸出:t時刻的歷史與下
一時刻t+1輸入yt的概率。
問題:
梯度消失和**:所以要有選擇地保留和遺忘
語言模型:
長短時記憶網路lstm
詞向量規模、詞向量分布
NNLM 神經網路語言模型
nnlm是從語言模型出發 即計算概率角度 構建神經網路針對目標函式對模型進行最優化,訓練的起點是使用神經網路去搭建語言模型實現詞的 任務,並且在優化過程後模型的副產品就是詞向量。進行神經網路模型的訓練時,目標是進行詞的概率 就是在詞環境下,下乙個該是什麼詞,目標函式如下式,通過對網路訓練一定程度後,...
NNLM 神經網路語言模型
簡介 nnlm是從語言模型出發 即計算概率角度 構建神經網路針對目標函式對模型進行最優化,訓練的起點是使用神經網路去搭建語言模型實現詞的 任務,並且在優化過程後模型的副產品就是詞向量。進行神經網路模型的訓練時,目標是進行詞的概率 就是在詞環境下,下乙個該是什麼詞,目標函式如下式,通過對網路訓練一定程...
神經網路模型
神經網路往往不需要人為的構造資料特徵,因為乙個神經元就可以看做是原始資料的不同特徵的組合,在神經元數目足夠大,層數足夠多的情況下,是很容易準確的進行分類的.神經網路是由具有適應性的簡單單元組成的廣泛並行互連的網路,它的組織能夠模擬生物神經系統對真實世界物體所做出的互動反應 神經元模型 m p神經元模...