詞向量與elmo模型
bilstm介紹與**實現
目前將預訓練語言表徵應用於下游任務存在兩種策略:feature-based的策略和fine-tuning策略。
原始的 transformer模型由encoder和decoder組成,每個都是我們稱之為 transformer 架構的堆疊。這種架構是合理的,因為該模型解決了機器翻譯問題——過去encoder-decoder結構解決的問題。
堆疊的高度是不同的gpt2模型之間大小有別的主要影響因素之一
**openai的秘密**gpt-2:視覺化transformer語言模型(鏈結)
openai gpt使用的是從左到右的架構,其中每個token只能注意transformer自注意力層中的先前token。這些侷限對於句子層面的任務而言不是最佳選擇,對於token級任務(如 squad 問答)則可能是毀滅性的,因為在這種任務中,結合兩個方向的語境至關重要。
bert(bidirectional encoder representations from transformers)改進了基於微調的策略。提出一種新的預訓練目標——遮蔽語言模型(masked language model,mlm),來克服上文提到的單向侷限。
xlnet
預訓練模型
elmo elmo是一種是基於特徵的語言模型,用預訓練好的語言模型,生成更好的特徵。而elmo的主要做法是先訓練乙個完整的語言模型,再用這個語言模型去處理需要訓練的文字,生成相應的詞向量。文字分類實戰 九 elmo 預訓練模型 在nlp領域,使用預訓練模型或元件的監督學習任務被稱為下游任務 bert...
NLP中的預訓練語言模型(五) ELECTRA
這是一篇還在雙盲審的 不過看了之後感覺作者真的是很有創新能力,electra可以看作是開闢了一條新的預訓練的道路,模型不但提高了計算效率,加快模型的收斂速度,而且在引數很小也表現的非常好。electra pre trainingtextencoders asdiscriminatorsrathert...
預訓練語言模型學習筆記
bert解決長序列問題 架構設計 為了能讓機器可以讀非常長的序列,transformer xl 可以讓機器讀跨越片段的內容。為了讓自注意力的計算複雜度變小,從 o t 變成了 o tlogt 甚至更低,reformer 使用了區域性敏感性的雜湊注意力。為了讓自注意力的空間複雜度也變小,從o t 變小...