一、文字表示
文字表示:one-hot(單詞),boolean representation(句子),count-based representation(句子)
詞典:[我,要,去,北京,上海,南京]
one-hot:向量空間只有乙個維度是1,其餘都是0(缺點:高維度高稀疏)
w1=我:[1,0,0,0,0,0]
w2=要:[0,1,0,0,0,0]
w3=去:[0,0,1,0,0,0]
w4=北京:[0,0,0,1,0,0]
缺點:矩陣稀疏;不能表示語義
boolean representation
s1=我 要 去 北京:[1,1,1,1,0,0]
s2=我 要 去 上海:[1,1,1,0,1,0]
s3=我 要 去 北京 啊 北京:[1,1,1,1,0,0]
count-based representation
我 要 去 北京:[1,1,1,1,0,0]
我 要 去 北京 啊 北京:[1,1,1,2,0,0]
二、文字距離
歐式距離:
余弦距離:
三、詞向量
從第一節我們知道one-hot表示方法的缺陷,為解決這個問題,我們使用分布式表示方法(針對於單詞的方法是詞向量)。
二者區別:100維的one-hot表示法最多可以表示100個單詞,但是100維的分布式表示方法最多可以表示無數個單詞。
分布式表示:基本思想是將每個詞表達成n維稠密、連續的實數向量。具有很強的特徵表達能力。
分布式表示方法的好處:
①能計算詞與詞之間的相似度,能對詞進行視覺化
②解決了one-hot的稀疏問題
**於貪心科技nlp講解
NLP 之文字表示
我們在做模型訓練的時候,不是直接把文字或者詞語傳給計算機讓其進行計算,而是需要將單詞 句子 文字轉換成向量或者矩陣進行計算,而如何將文字轉換成向量就是本文需要介紹的內容。介紹內容之前,大家需要先熟悉一些概念。詞庫 訓練資料 現的所有單詞,可以使用jieba分詞統計出來。混淆矩陣 混淆矩陣是資料科學 ...
NLP之分布表示
harris 在1954 年提出的分布假說 distributional hypothesis 為這一設想提供了理論基礎 上下文相似的詞,其語義也相似。firth 在1957 年對分布假說進行了進一步闡述和明確 詞的語義由其上下文決定 a word is characterized by theco...
NLP文字挖掘
賽題理解 賽題資料 學習目標 賽題思路 賽題的名稱 零基礎入門nlp之新聞文字類 賽題的任務 以nlp為背景,對新聞文字進行分類,及處理乙個典型的字元識別問題 賽題目標 通過這道賽題可以引導大家走入自然語言處理的世界,帶大家接觸nlp的預處理 模型構建 和模型訓練等知識點。資料構成 訓練集20w條樣...