查到的大多數部落格寫的都比較複雜,在看到乙個stanford cs276的課件之後,決定按照自己的理解來寫一點,權做拋磚引玉了。
假定給予兩個詞
november
december
則unibram是
n o v e m b e r
d e c e m b e r
bigram是
no ov ve em mb be er
de ec ce em mb be er
trigram是
nov ove vem emb mbe ber
dec ece cem emb mbe ber
如果在計算兩個序列之間的overlap的時候,比如對於trigram而言,其
x∪y= 9
x∩y =3
因此其overlap是3/9
而在276課件中,是提到了x與y可以為不同長度。因此,我認為在x和y的overlap比對中,並不一定需要相同位置的兩個一樣,即對順序不敏感。意思是說
nov emb mbe ber ove vem和dec ece cem emb mbe ber的overlap也是3/9
276 課件鏈結
NLP中的遷移學習
摘要 遷移學習正在各個領域大展拳腳,nlp領域正在受到衝擊!nlp中的遷移學習理念在fast.ai課程中得到了很好的體現,我們鼓勵你檢視論壇。我們這裡的參考檔案是 howard,ruder,用於文字分類的通用語言模型微調 計算機視覺是乙個使用遷移學習而取得巨大進步的領域。它具有數百萬引數的高度非線性...
NLP中的對抗樣本
自然語言處理方面的研究在近幾年取得了驚人的進步,深度神經網路模型已經取代了許多傳統的方法。但是,當前提出的許多自然語言處理模型並不能夠反映文字的多樣特徵。因此,許多研究者認為應該開闢新的研究方法,特別是利用近幾年較為流行的對抗樣本生成和防禦的相關研究方法。使用對抗樣本生成和防禦的自然語言處理研究可以...
NLP中的資料增強
相關方法合集見 較為簡單的資料增強的方法見 中所使用的方法如下 1.同義詞替換 sr synonyms replace 不考慮stopwords,在句子中隨機抽取n個詞,然後從同義詞詞典中隨機抽取同義詞,並進行替換。同義詞其詞向量可能也更加接近,在使用詞向量的模型中不一定有用 2.隨機插入 ri r...