小結2 文字預處理語言模型迴圈神經網路基礎

3 迴圈神經網路基礎

文字預處理常見步驟：

1 讀入文字

2 分詞

3 建立字典，將每個詞對映到乙個唯一的索引（index）

4 將文字從詞的序列轉換為索引的序列，方便輸入模型

為了方便模型處理，我們需要將字串轉換為數字。因此我們需要先構建乙個字典（vocabulary），將每個詞對映到乙個唯一的索引編號。

語料庫，分詞等。

將詞進行向量化

n-1階馬爾科夫假設

舉例：

隨機取樣：

相鄰取樣：

困惑度我們通常使用困惑度（perplexity）來評價語言模型的好壞。回憶一下「softmax回歸」一節中交叉熵損失函式的定義。困惑度是對交叉熵損失函式做指數運算後得到的值。特別地，

最佳情況下，模型總是把標籤類別的概率**為1，此時困惑度為1；

最壞情況下，模型總是把標籤類別的概率**為0，此時困惑度為正無窮；

基線情況下，模型總是**所有類別的概率都相同，此時困惑度為類別個數。

顯然，任何乙個有效模型的困惑度必須小於類別個數。在本例中，困惑度必須小於詞典大小vocab_size。

定義模型訓練函式

跟之前章節的模型訓練函式相比，這裡的模型訓練函式有以下幾點不同：

使用困惑度評價模型。

在迭代模型引數前裁剪梯度。

對時序資料採用不同取樣方法將導致隱藏狀態初始化的不同。

文字預處理（4）文字糾錯

一般有兩種文字糾錯的型別首先看一下non word的拼寫錯誤，這種錯誤表示此詞彙本身在字典中不存在，比如把要求誤寫為藥求把 correction 誤拼寫為 corrction 尋找這種錯誤很簡單，例如分完詞以後找到哪個詞在詞典中不存在，那麼這個詞就可能是錯誤拼出來的的詞。操作步驟找到候選...

動手學深度學習筆記2文字預處理

一文字預處理 1.四個步驟讀入文字分詞建立字典，將每個詞對映到乙個唯一的索引 index 將文字從詞的序列轉換為索引的序列，方便輸入模型讀入文字分詞建立字典將字串轉換為數字，將每個詞對映到乙個唯一的索引編號。兩個重要的分詞庫 nltk與spacy 二語言模型定義一段自然語言文字...

書蘊筆記 0 文字預處理

整體索引在此書蘊基於書評的人工智慧推薦系統 import re import os from openpyxl import load workbook defread from xlsx path wb load workbook path ws wb wb.sheetnames 0 rows...

小結2 文字預處理 語言模型 迴圈神經網路基礎

文字預處理 （4）文字糾錯

動手學深度學習筆記2文字預處理

書蘊筆記 0 文字預處理

相關推薦

小結2 文字預處理語言模型迴圈神經網路基礎

文字預處理（4）文字糾錯