5分鐘 NLP系列 11 個詞嵌入模型總結

2022-09-18 22:15:14 字數 709 閱讀 5263

tf-idf, word2vec, glove, fasttext, elmo, cove, bert, roberta

詞嵌入在深度模型中的作用是為下游任務(如序列標記和文字分類)提供輸入特徵。在過去的十年中,已經提出了很多種詞嵌入方法,本片文章將對這些詞嵌入的模型做乙個完整的總結

這類模型學習到的表徵的特點是,在不考慮單詞上下文的情況下,每個單詞都是獨特的和不同的。

不需要學習

bag-of-words(詞袋):乙個文字(如乙個句子或乙個文件)被表示為它的詞袋,不考慮語法、詞序。

tf-idf:通過獲取詞的頻率(tf)並乘以詞的逆文件頻率(idf)來得到這個分數。

需要進行學習

word2vec:經過訓練以重建單詞的語言上下文的淺層(兩層)神經網路。word2vec 可以利用兩種模型架構中的任何一種:連續詞袋 (cbow) 或連續skip-gram。在 cbow 架構中,模型從周圍上下文詞的視窗中**當前詞。在連續skip-gram架構中,模型使用當前詞來**上下文的周圍視窗。

glove(global vectors for word representation):訓練是在語料庫中彙總的全域性單詞-單詞共現統計資料上執行的,結果表示顯示了單詞向量空間的線性子結構。

fasttext:與 glove 不同,它通過將每個單詞視為由字元 n-gram 組成而不是整個單詞來嵌入單詞。此功能使其不僅可以學習生僻詞,還可以學習詞彙表外的詞。

完整文章

5分鐘 NLP 使用 OpenNRE 進行關係提取

關係提取 relation extraction 是一項自然語言處理任務,旨在提取實體之間的關係。例如,從句羅密歐與朱麗葉是由威廉莎士比亞寫的,我們可以提取關係三元組 威廉莎士比亞,是羅密歐與朱麗葉的作者 關係提取是自動知識圖譜構建中的一項關鍵技術。通過關係提取,我們可以累積提取新的關係事實,擴充套...

演算法系列 5分鐘了解雜湊演算法

前言 雜湊演算法是現代密碼體系中的乙個重要組成部分。大家比較感興趣的數字貨幣,就使用了雜湊演算法。雜湊演算法簡介 雜湊 hash 演算法又稱為雜湊演算法,通過hash演算法,可以將任意長度的資訊轉換成乙個固定長度的二進位制資料,我們經常會使用十六進製制值來表示轉換後的資訊。比如,數字123,使用md...

下單5分鐘就收貨 天貓雙11快遞分鐘級送達成常態

2020天貓雙11全球狂 mfazxfdi歡季0點正式開場。菜鳥物流骨幹網全速開動發貨。凌晨0 35分,雙11消費者開始付尾款僅過去5分鐘,杭州蕭山的李先生就收到了菜鳥送達的包裹,重新整理了雙11物流新速度。這單包裹從菜鳥直送網點發出,距離消費者僅1公里。為了讓雙11包裹提速,菜鳥數字 鏈今年與更多...