2020 08 15題目就要與眾不同

2021-10-09 05:29:47 字數 471 閱讀 7130

自然語言是一套用來表達含義的複雜系統。在這套系統中,詞是表義的基本單元。

詞向量,是用來表示詞的向量或表徵,也可被認為是詞的特徵向量。

把詞對映為實數域向量的技術也叫詞嵌入(word embedding)。

為何不用one-hot向量?

one-hot向量構造起來容易,但不是乙個好選擇,主要原因

one-hot詞向量無法準確表達不同詞之間的相似度,如我們常常使用的余弦相似度。

任何兩個不同詞的one-hot向量的余弦相似度都為0,多個不同詞之間的相似度難以通過one-hot向量準確地體現出來。

word2vec工具的提出正是為了解決上面的問題。它將每個詞表示成乙個定長的向量,並使得這些向量能夠較好地表達不同詞之間的相似和模擬關係。

其中word2vec包含兩個模型:cbow(continuous bag of words,連續詞袋模型)和skip-gram(跳字模型)。

2020 08 12題目就要與眾不同

乙個數字影象是乙個二維離散訊號,利用希爾伯特曲線,可以將一副數字影象轉變為乙個一維離散訊號,這就使得對影象的處理變得更加容易。gch全域性顏色直方圖,是描述顏色特徵的最傳統的方式,缺陷,忽略了某種顏色在影象中的具體分布。也就是說,通過直方圖,可以了解某種顏色在影象中所佔的比例,但卻無法了解該顏色在影...

2020 08 20題目就要與眾不同

20小時定律由josh kaufman在暢銷書the first 20 hours how to learn anything fast中提出,是一種對10000小時定律的一種逆向思考的產物。只是聽過,不過個人感覺的確是,雖然我沒搞過室內設計,搞出的東西也完全什麼靈魂,不過就投入時間和自我期望值之間...

11月06 題目就要與眾不同

bceloss與crossentropyloss都是用於分類問題。可以知道,bceloss是binary crossentropyloss的縮寫,bceloss crossentropyloss的乙個特例,只用於二分類問題,而crossentropyloss可以用於二分類,也可以用於多分類。不過我重...