小結2 文字預處理 語言模型 迴圈神經網路基礎

2021-10-02 19:56:13 字數 922 閱讀 8304

3 迴圈神經網路基礎

文字預處理常見步驟:

1 讀入文字

2 分詞

3 建立字典,將每個詞對映到乙個唯一的索引(index)

4 將文字從詞的序列轉換為索引的序列,方便輸入模型

為了方便模型處理,我們需要將字串轉換為數字。因此我們需要先構建乙個字典(vocabulary),將每個詞對映到乙個唯一的索引編號。

語料庫,分詞等。

將詞進行向量化

n-1階馬爾科夫假設

舉例:

隨機取樣:

相鄰取樣:

困惑度我們通常使用困惑度(perplexity)來評價語言模型的好壞。回憶一下「softmax回歸」一節中交叉熵損失函式的定義。困惑度是對交叉熵損失函式做指數運算後得到的值。特別地,

最佳情況下,模型總是把標籤類別的概率**為1,此時困惑度為1;

最壞情況下,模型總是把標籤類別的概率**為0,此時困惑度為正無窮;

基線情況下,模型總是**所有類別的概率都相同,此時困惑度為類別個數。

顯然,任何乙個有效模型的困惑度必須小於類別個數。在本例中,困惑度必須小於詞典大小vocab_size。

定義模型訓練函式

跟之前章節的模型訓練函式相比,這裡的模型訓練函式有以下幾點不同:

使用困惑度評價模型。

在迭代模型引數前裁剪梯度。

對時序資料採用不同取樣方法將導致隱藏狀態初始化的不同。

文字預處理 (4)文字糾錯

一般有兩種文字糾錯的型別 首先看一下non word的拼寫錯誤,這種錯誤表示此詞彙本身在字典中不存在,比如把 要求 誤寫為 藥求 把 correction 誤拼寫為 corrction 尋找這種錯誤很簡單,例如分完詞以後找到哪個詞在詞典中不存在,那麼這個詞就可能是錯誤拼出來的的詞。操作步驟 找到候選...

動手學深度學習筆記2文字預處理

一 文字預處理 1.四個步驟 讀入文字 分詞 建立字典,將每個詞對映到乙個唯一的索引 index 將文字從詞的序列轉換為索引的序列,方便輸入模型 讀入文字 分詞 建立字典 將字串轉換為數字,將每個詞對映到乙個唯一的索引編號。兩個重要的分詞庫 nltk與spacy 二 語言模型 定義 一段自然語言文字...

書蘊筆記 0 文字預處理

整體索引在此 書蘊 基於書評的人工智慧推薦系統 import re import os from openpyxl import load workbook defread from xlsx path wb load workbook path ws wb wb.sheetnames 0 rows...