自然語言預處理
1.分詞
對於英文,有天然的空格作為分隔符號,但是對於中文,我們需要進行分詞處理,把文章變成詞彙序列,再去重成為下面所說的詞彙表。
詞彙表是文章**現過的所有的單詞的不重複列表(只出現一次)
2. 詞彙表
自然語言預處理,需要去掉停止詞,新增符號。核心是將所有的文字內容轉換成編號進行處理。
我們需要先建立乙個vocabulary儲存所有出現過的單詞,如果單詞不在詞彙表**現過,那就成了out of vocabular 詞了。需要進行處理。
3. 詞態,詞幹,喱語,非正式用語處理
對於所有的動詞,需要去態時態,改為不定式形式。對於有變形的單詞,需要處理成原始的形態,比如不規則時態變形等。
4 語言模型
語言模型是語言的表示方式。 對於詞彙,有傳統的基於共現關係的ngram方式,也有基於向量空間的 word2vec方式。
分為概率語言模型和向量語言模型。
5 rnn
rnn有普通的簡單rnn, 帶遺忘控制 的lstm 長短期記憶網路,以及更複雜的gru.
動手學深度學習PyTorch版 筆記彙總
pytorch的tensor,它可以是零維 又稱為標量或乙個數 一維 二維及多維的陣列。tensor自稱為神經網路界的numpy,它與numpy相似,二者可以共享記憶體,且之間的轉換非常方便和高效。不過它們也有不同之處,最大的區別就是numpy會把ndarray放在cpu中進行加速運算,而由torc...
《動手學深度學習》pytorch版筆記一
動手學深度學習 pytorch版筆記 與其說是筆記,不如說是問題集,有些已經搞清楚了,記錄一下。有些還沒搞清楚,先列在這裡,以後有空再慢慢查文件填坑。task 1 線性回歸 1.向量化運算以及矩陣的維度表示 2.torch.randn np.random.normal 等隨機數組生成函式 3.ten...
Pytorch 動手學深度學習(二)
學習安排如下 task03 過擬合 欠擬合及其解決方案 梯度消失 梯度 迴圈神經網路高階 1天 task04 機器翻譯及相關技術 注意力機制與seq2seq模型 transformer 1天 task05 卷積神經網路基礎 lenet 卷積神經網路高階 1天 梯度消失部分,主要是協變數偏移 標籤偏移...