語言表徵 從詞巢狀到句子語義

2021-09-10 13:38:51 字數 3465 閱讀 1008

去年,christopher manning教授發表了這個演講。這是乙個介紹性教程,沒有太複雜的演算法。 該主題分為四個部分:

人類語言特徵

人類語言最鮮明的特徵之一是其有意義的表徵。 無論乙個人說什麼,乙個詞或乙個片語,它往往都有意義。 人類語言也有乙個特殊的結構,使其易於學習,即使是孩子也可以快速學習。 與最先進的機器學習方法中使用的必要輸入不同,人類語言更可能是離散/符號/分類表徵。 因此,我們需要一種更有效、更有意義的方式來編碼人類語言。

分布式詞表徵

詞向量

就一些傳統的機器學習方法而言,詞被表示為向量空間中的離散向量(即one-hot編碼),例如 [0 0 0 0 1 0 0 1] 可能是乙個具備同樣規模詞彙量的大的向量。但這種方法存在乙個問題,即缺乏相似性的自然概念。例如如果我們想要搜尋「dell notebook」,我們也可以接受詞條「dell laptop」,但實際上它們被表示為兩個不同的離散向量 [0 0 0 1 0] 和 [0 0 1 0 0],正交性使我們無法在它們之間建立任何概念聯絡。

為了分享更多的統計資料並尋求類似單詞/短語之間的更多相似性,密集向量被認為是現代nlp最成功的想法之一。神經網路使用密集向量來表示單詞。

word2vec的詳細資訊

在神經網路中,用於學習密集詞向量的標準概率建模基於以下公式:

這意味著該目標函式是使用中心詞 c 及其語境詞的softmax函式,其中o是語境詞索引,u_o是對應的詞向量,c是中心詞索引,v_c是對應的詞向量。 總體目標是盡量使該概率最大化,以便經過百萬次反向傳播後,具有相同周圍詞向量的詞更容易在向量空間中具備相似的含義。

上圖是學習後向量空間中的投影詞向量。 因此,它不僅可以捕獲相似性共現,還可以捕獲一些細粒度維度含義,以便你可以在某些指定的方向上觀察某些特定的語境連線。

bilstm現狀

「基本上,如果你想做乙個自然語言處理任務,不管它是什麼,你都應該把資料放到乙個bilstm網路中,通過注意力機制增強其資訊流。」

以上是經典的rnn編碼器-解碼器網路。 首先,根據當前輸入和前乙個隱藏狀態,計算每個時間步的源語句的編碼器網路讀入詞和相應的隱藏狀態。 然後解碼器開始基於編碼器的最後隱藏狀態生成單詞。 不幸的是,它不能很好地用於機器翻譯,因為它無法捕捉源句子的長期依賴。

lstm和gru可以改善這一點,這是近年來最成功的兩個rnn變體,用於解決長期依賴問題。 它們也被廣泛稱為「gated recurrent unit」。 門控機制控制哪些資訊應該傳遞到下一步,以便**出好的譯文。

上圖是gru模組的數學公式。 gru模組就像乙個讀/寫暫存器。 它讀取前乙個隱藏狀態的一部分,並與當前輸入結合以構建候選更新(請參閱上面公式的第二行)。 然後它保留部分維度與先前隱藏狀態相同,並通過候選更新更新剩餘部分(請參閱上面公式的第一行)。 請注意,u_t和r_t是多變數伯努利分布,範圍從0到1(以便做出選擇:遺忘或更新)。

lstm模組與gru模組類似,但它具有更多的可訓練引數。這裡的思路也是基於先前隱藏狀態和當前輸入的候選更新值(參見上面公式中的第三個方程),它用於單元格計算(參見上述公式中的第二個方程)。當我們計算單元格時,可能會根據f_t遺忘前乙個單元格狀態的一部分,並且可以根據i_t新增部分候選更新。在計算單元格狀態之後,我們可以基於單元和輸出門計算當前隱藏狀態(見上式中的第乙個方程)。注意,f_t和i_t也是乙個多變數伯努利分布,範圍從0到1(以便做出選擇:遺忘或更新)。

這裡的魔法是「+」符號(參見上述gru公式中的第乙個公式和上述lstm公式中的第二個公式)。它將整合新的候選隱藏狀態和之前時間步中的部分隱藏狀態,這意味著資訊流可以基於前一步在多個方向上進行。通過這種方式,梯度將會更平滑地反向傳播(更少的梯度消失問題),並且與傳統的遞迴神經網路相比,該系統傾向於具有更長的短期記憶。

總之,基於門控,lstm / gru模組可以專注於某個特定的環境,並且遺忘對將來貢獻較少的語境,因此整體而言,它可以暫時記住部分句子,以便為未來的學習做出貢獻。

這是sutskever等人 2014 [1] 提出的lstm編碼器-解碼器結構,它已經在機器翻譯方面有傑出的表現。 lstm模組已被替換為網路內部單元,並具有更深的架構。其工作流程與之前相同:讀入源句子,將其編碼為隱藏嵌入,並由解碼器生成該句子。 但是這裡仍然有乙個很大的限制:傳送給解碼器的整個記憶與編碼器的最後一步相關聯。 但是,這種架構可能引發兩個問題:首先,這樣資訊流可能受到限制。 其次是對於更長的句子,編碼器開始時的標記可能會在從左到右的過程中被遺忘。

為了克服這兩個問題,人們提出了雙向長短期記憶bi-lstm,它的思想是,在解碼器的乙個步驟中,根據語境向量提供附加控制,該語境向量處理來自源句子的所有資訊(回看源句子並計算它們在每個編碼器隱藏狀態和當前解碼器隱藏狀態之間的相關程度)。通過加權,語境向量可以基於整個源句子而不僅僅是最終的編碼器隱藏狀態來影響當前解碼器的隱藏狀態,這可以增強記憶並使其在實踐中非常成功。為了更好地表示源語句,在編碼器中使用雙向設計,在兩個方向上執行lstm。這有助於模型使用左右的語境詞更好地表徵源句子中的每個單詞。在實踐中,當你在每個方向獲得每個單詞的詞向量時,只需將它們連線起來,總會出現一些改進(無論是最終準確率還是句法順序)。

近年來,與傳統的基於短語的機器翻譯和基於句法的機器翻譯相比,神經網路機器翻譯(nmt)在單詞記憶測試的新評估中取得了重大進展。 神經網路機器翻譯有四個優點:

rnn的一些應用

存在基於rnn的各種應用,如問答、閱讀理解和情感分析等。最近有些人也使用卷積神經網路進行機器翻譯[2]。

儘管基於神經的方法在最近的wmt評估中取得了重大進展,但在實踐中,尤其是在實際的域內資料方面,神經機器翻譯仍然不如基於統計的機器翻譯有競爭力。 一方面,我希望人們能夠為nmt系統開發構建更有意義的、全面的、各種型別的資料,另一方面,就自然語言處理而言,無論具體的任務是什麼,語言和記憶的結構和模組化程度都需要不斷增加,尤其是它的泛化能力和可解釋性。

語言表述的不同

1 定時器到時處理函式的不同表述 t.elapsed new system.timers.elapsedeventhandler timer tick t.elapsed timer tick 2 執行緒池 waitcallback acceptconnection msocket threadpo...

JavaWeb HTML語言 表單標籤

1.標籤格式 2.表單標籤的作用 採集使用者輸入的資訊資料 3.應用 1 使用者註冊 使用者使用表單輸入使用者資訊 使用者名稱 密碼 確認密碼 郵箱 校驗 註冊 將資訊傳送至伺服器的資料庫儲存使用者資訊 2 使用者登入 輸入使用者名稱和使用者密碼 登入 校驗在資料庫中是否存在 4.form標籤當中的...

語言表達模型

也許有些人會反感套路,我以前也這樣,總覺得有點矯作淫巧。但是,套路最大的乙個好處是保證你的表達不會有太大紕漏。與此同時,按套路行動還可以倒逼你按正確的方法思考。這也是行為心理學最大的乙個貢獻,它告訴我們 不僅僅思考可以左右行動,行動也可以觸發思考 s situation 情景 c complicat...