**
./embed.sh raw.txt zh zh_embeddings.raw
raw.txt:未經處理的檔案
zh_embeddings.raw:句子向量
假設raw.txt是中文。raw.txt是未分詞的資料,未經tokenizer.perl處理的資料,處理過程中用jieba進行分詞,並進行bpe切分,之後再計算得到zh_embeddings.raw
****
zh_embeddings.raw和en_embeddings.raw是兩個平行語料分別計算的句子向量,用句子向量計算平行語料中每對句子的相似度
稀疏向量計算優化小結
在各種演算法中,向量計算是最經常使用的一種操作之中的乙個。傳統的向量計算,學過中學數學的同學也能明確怎麼做。但在如今的大資料環境下。資料一般都會比較稀疏,因此稀疏向量的計算,跟普通向量計算。還是存在一些不同。首先,我們定義兩個向量 a x1,x2,xn b y1,y 2,yn 定義a b的點積為a ...
幾何向量 計算光線折射refract向量
其實光線除了反射現象外,還有折射現象,打個比方,你看水塘中魚兒游動,表面上看起來魚兒很貼近水面,同時也感覺水底很淺,結果一腳捅下去,直接沒到大腿了,這就是光的折射產生的一種視覺欺騙。光線折射的產生,其實是因為光線通過不同介質所產生的 偏折 現象。ps 光線的 偏折 現象實際上和光的粒子性有關,這裡我...
複數計算和向量計算的區別
今天接觸到了量子計算,原理正在摸索,但是從數學角度,複數計算應該會用到。以前學習複數的時候,純屬應付考試,現在回想只記得乙個公式 今天週末,有時間縷一下,看幾個問題 1 複數裡用到了虛數,看了阮老師的一篇文章,虛數的意義何在 清晰了好多,上學的時候怎麼沒想過這些問題呢?2 看起來複數計算好像跟向量計...