前面的方法都是基於分布式假說來進行的建模,而基於分布式假說的詞向量表示學習需要足夠的上下文資訊來捕捉乙個詞的語義,也就是要求詞出現的頻率足夠高。但是根據齊夫定律,絕大多數的詞在語料中很少出現,對於這些詞,無法依據分布式假說來獲得高質量的詞向量表示。
前面利用的是詞來進行的建模,但是詞並不是最小的語言單位,詞是由字或字元構成的。所以也可以使用字或字元來進行語義的研究。
研究人員發現在中文中,有93%左右的詞滿足或部分滿足語義組合特徵(如果乙個詞的語義可以用內部漢字的語義組合而成)。而中文中常用的漢字也就在7000字左右,如果能充分的挖掘漢字的語義向量表示,設計準確的語義組合函式,那麼就能會很好的增強漢語詞,尤其是低頻詞的向量表示能力。
字詞混合的方式有很多,主要的區別在於:
目標依舊是區分正確的n元組和隨機的n元組,核心任務依舊是計算乙個n元組的得分。接下來有兩種方式進行字詞混合。
(1)簡單直接的字詞融合
最終的詞向量是直接將漢字的語義組合表示和中文的原子向量進行拼接e=[
e(c1
,c2.
..cl
);e(
wi)]
e=[e(c_1,c_2...c_l);e(w_i)]
e=[e(c
1,c
2..
.cl
);e(
wi)
]然後進行拼接所有詞的詞向量h
0h_0
h0,並進行之後的c&w計算
這種方式有很多缺陷:a.沒有考慮不同的漢字對組合語義的影響;b.沒有考慮組合語義和原子語義對最終詞向量的影響。例如,『計程車』中『車』的貢獻最大,而『出』和『租』僅僅是修飾作用,貢獻相對較小,所以不同的漢字不應該等同視之;另一方面有的詞是非透明的(例如『苗條』),則更多的依賴詞的原子語義。
(2)通過門限機制獲取組合語義
通過大量的實驗表明,考慮詞內漢字貢獻度後獲得的詞向量有更準確的表達能力。
形容謠言的四字詞語 四字詞語加解釋大全
四字詞語加解釋大全 一 華而不實 華 開花。花開得好看,但不結果實。比喻外表好看,內容空虛。二 平分秋色 比喻雙方各得一半,不分上下。三 如數家珍 好像數自己家藏的珍寶那樣清楚。比喻對所講的事情十分熟悉。四 墨守成規 墨守 戰國時墨翟善於守城 成規 現成的或久已通行的規則 方法。指思想保守,守著老規...
abab的四字成語 abab的四字詞語大全
abab的四字詞語大全 於思於思 彼哉彼哉 彼此彼此 紫紅紫紅 瓦藍瓦藍 青綠青綠 煞白煞白 黝黑黝黑 碧綠碧綠 火紅火紅 湛藍湛藍 金 黃 呼啦呼啦 聯絡聯絡 調查調查 放鬆放鬆 研究研究 商量商量 叮噹叮噹 思考思考 商量商量 打掃打掃 檢查檢查 祝賀祝賀 研究研究 抖擻抖擻 舒活舒活 整理整理...
abab的四字成語 abab式的四字詞語
攻略 洛克王國楓雪鎮的告別式 abab中國第 500x282 45kb jpeg abab式成語大全四字成語 468x344 27kb jpeg 累abcc aabb aabc abac abab式詞 640x283 37kb jpeg aabb abab abac aacc式超全詞語彙總 課 61...