表示學習1 word2vec

2021-08-08 12:15:01 字數 551 閱讀 9164

幾點基礎工作

distributed representation

softmax function

函式公式:si

=ezj

∑kk=

1ezk

for j=

1,..

.,k

具體softmax function的特點可以參考softmax function 的特點和應用

word2vec

總體上,構建乙個多層神經網路,在給定文字中獲取對應的輸入和輸出,訓練過程中不斷修正網路的引數,最終得到輸出的詞向量

大體流程:

1. 分詞/詞幹提取和詞形還原

2. 構造詞典,統計詞頻

3. 構造樹形結構

4. 生成節點所在的二進位制編碼

5. 初始化各非葉節點的中間向量和頁節點的詞向量

詳細介紹可參考 word2vec主要流程

word2vec中的兩個重要的模型:

- cbow

- skip-gram

可參考 cbow 和 skip-gram

學習筆記(1) Word2vec

優缺點優化方法 word2vec 是 word embedding 的方法之一,屬於 nlp 領域。word embedding是將不可計算 非結構化的詞轉化為可計算 結構化的向量 詞向量。word2vec 在整個 nlp 裡的位置可以用下圖表示 one hot encoder 自然語言處理經常把字...

BERT學習過程記錄1 Word2vec

資料 自知乎,僅作摘錄之用 在聊 word2vec 之前,先聊聊 nlp 自然語言處理 nlp 裡面,最細粒度的是 詞語,詞語組成句子,句子再組成段落 篇章 文件。所以處理 nlp 的問題,首先就要拿詞語開刀。舉個簡單例子,判斷乙個詞的詞性,是動詞還是名詞。用機器學習的思路,我們有一系列樣本 x,y...

表示學習02 word2vec具體實現細節

1.知乎解答 2.word2vec的數學原理 step1 首先有了文字語料庫,你需要對語料庫進行預處理,這個處理流程與你的語料庫種類以及個人目的有關,比如,如果是英文語料庫你可能需要大小寫轉換檢查拼寫錯誤等操作,如果是中文日語語料庫你需要增加分詞處理 jieba庫 這個過程其他的答案已經梳理過了不再...