3 迴圈神經網路基礎
文字預處理常見步驟:
1 讀入文字
2 分詞
3 建立字典,將每個詞對映到乙個唯一的索引(index)
4 將文字從詞的序列轉換為索引的序列,方便輸入模型
為了方便模型處理,我們需要將字串轉換為數字。因此我們需要先構建乙個字典(vocabulary),將每個詞對映到乙個唯一的索引編號。
語料庫,分詞等。
將詞進行向量化
n-1階馬爾科夫假設
舉例:
隨機取樣:
相鄰取樣:
困惑度我們通常使用困惑度(perplexity)來評價語言模型的好壞。回憶一下「softmax回歸」一節中交叉熵損失函式的定義。困惑度是對交叉熵損失函式做指數運算後得到的值。特別地,
最佳情況下,模型總是把標籤類別的概率**為1,此時困惑度為1;
最壞情況下,模型總是把標籤類別的概率**為0,此時困惑度為正無窮;
基線情況下,模型總是**所有類別的概率都相同,此時困惑度為類別個數。
顯然,任何乙個有效模型的困惑度必須小於類別個數。在本例中,困惑度必須小於詞典大小vocab_size。
定義模型訓練函式
跟之前章節的模型訓練函式相比,這裡的模型訓練函式有以下幾點不同:
使用困惑度評價模型。
在迭代模型引數前裁剪梯度。
對時序資料採用不同取樣方法將導致隱藏狀態初始化的不同。
文字預處理 (4)文字糾錯
一般有兩種文字糾錯的型別 首先看一下non word的拼寫錯誤,這種錯誤表示此詞彙本身在字典中不存在,比如把 要求 誤寫為 藥求 把 correction 誤拼寫為 corrction 尋找這種錯誤很簡單,例如分完詞以後找到哪個詞在詞典中不存在,那麼這個詞就可能是錯誤拼出來的的詞。操作步驟 找到候選...
動手學深度學習筆記2文字預處理
一 文字預處理 1.四個步驟 讀入文字 分詞 建立字典,將每個詞對映到乙個唯一的索引 index 將文字從詞的序列轉換為索引的序列,方便輸入模型 讀入文字 分詞 建立字典 將字串轉換為數字,將每個詞對映到乙個唯一的索引編號。兩個重要的分詞庫 nltk與spacy 二 語言模型 定義 一段自然語言文字...
書蘊筆記 0 文字預處理
整體索引在此 書蘊 基於書評的人工智慧推薦系統 import re import os from openpyxl import load workbook defread from xlsx path wb load workbook path ws wb wb.sheetnames 0 rows...