GloVe Word表示的全域性向量

2021-09-16 13:10:14 字數 1232 閱讀 2176

原**:

pennington j, socher r, manning c. glove: global vectors for word representation[c]//

conference on empirical methods in natural language processing. 2014:1532-1543.

根據部落格的翻譯粗略了解glove演算法,但是說得不詳細,回過頭再看原**。

補充一些本人的理解:

原**為什麼說下面這個公式pik/pjk比簡單的pik更能判斷詞i和k或者j和k是聯絡性大or小?

我是這樣理解的:pik是乙個數值,怎麼衡量這個數值大還是小,換言之,怎麼根據pik判斷詞i和k的聯絡大小,需要比較,才有大小之分,例如,i和k的聯絡大(小),j和k的聯絡小(大),那麼pik/pjk就是大於(小於)1的數,那麼就能判斷分子(分母)i和k(j和k)的聯絡大。其他情況,i和k,j和k聯絡都比較大或小,**中得出的統計規律是pik/pjk接近1,這種情況下無法去判斷i和k(j和k)聯絡大小的。因此,我覺得訓練集樣本應該是三個詞i,j,k組合而成的,並且根據統計資料pik/pjk不能接近1,才能學習出體現兩個詞之間的聯絡的詞向量表示(訓練過程中的引數),但是**中為了簡化計算,讓模型學習pik,輸入樣本是兩個詞。

但是!**中在推理的過程中,本來打算要學習下面的三個詞輸入的函式f(i,j,k)

推理到後面,為了簡化計算,把三維的樣本降低為二維,學習f(i,k)

由上面兩個式子得:f(wi內積wk) = exp(wi內積wk),這麼一看,其實f也就模型並不是神經網路,僅僅只是個二元指數函式。

擬合(訓練)上述二元指數函式f,訓練集:輸入為詞對(i,j),標籤為(pij),引數為wi,wj,也就是詞i,j的向量表示

用下面的代價函式優化得到引數,實際上就是最小二每個樣本乘了個和詞對出現頻率正相關的權值,具體推導請看原**。

詞向量做為引數,在訓練過程中得出,學習到的模型輸入是詞i和k,輸出是i和k的聯絡pik。不過該模型最大功能是訓練出能體現不同詞之間的聯絡性(詞向量相乘)的詞向量表示。

CAMB中檢視波矢的取值範圍

角功率譜對波矢的積分是從0到無窮大的,但實際上camb中並沒有積分如此廣泛,而是有上下限的,因為 首先進入 test camb nov2016 vim power tilt.f90中,對f.90檔案增加一行命令如下圖 紅色方框表示的是建乙個字尾為123的檔案,輸出k,write的格式為 write ...

向量網路分析儀(矢網)的校準

一 誤差分析 網路分析儀測試過程中的誤差主要分為三類 系統誤差 隨機誤差 漂移誤差。1 系統誤差是由於儀表內部測試裝置的不理想引起,它是可預示和可重複出現的。由於是不隨時間變化的,從而可以定量進行描述。系統誤差可在測試過程中通過校準消除。2 隨機誤差是不可預示的,因為它以隨機形式存在,會隨時間變化,...

數的定點表示和數的浮點表示

數的定點表示 小數點按照約定的形式給出。在計算機裡面沒有專門的硬體用來表示小數點,所謂的小數點都是計算機體系設計人員按照約點的形式給出的。按照約定的方式,可以將計算機分為兩種 一種是小數點在數符後面數值前面,一種是數值後面。如圖 前面這種稱為小數定點機,後面的稱為整數定點機。下面是這兩種形式計算機的...