*該演算法是一種衡量文字相似度的演算法,下面介紹一下這個演算法的主要思想。
假設我們有三段文字:
1,我愛你中國。
2,我愛北京天安門。
3,我愛吃蘋果
一,分詞,形成如下矩陣:
文字 1 文字 2 文字 3
我 1 1 1
愛 1 1 1
你 1 0 0
中國 1 0 0
北京 0 1 0
天安門 0 1 0
吃 0 0 1
蘋果 0 0 1
二,將我們的向量分成n段,每一段通過hash函式計算出乙個值放入桶中。
分段的原因是,讓不同的文字有機會分到同乙個桶當中。
三,api寫法
val brpls =
new bucketedrandomprojectionlsh(
) brpls.setinputcol(
"features"
) brpls.setoutputcol(
"hashes"
)//桶個數
brpls.setbucketlength(
10.0
)val model = brpls.fit(train)
區域性敏感雜湊LSH
參考資料 簡單介紹 在茫茫人海中發現相似的你 區域性敏感雜湊 lsh 基本思想 區域性敏感雜湊的基本思想類似於一種空間域轉換思想,lsh演算法基於乙個假設,如果兩個文字在原有的資料空間是相似的,那麼分別經過雜湊函式轉換以後的它們也具有很高的相似度 相反,如果它們本身是不相似的,那麼經過轉換後它們應仍...
區域性敏感雜湊 原始LSH C 實現
之前專案中用到lsh演算法來做特徵檢索,對lsh演算法很好奇,最近看了lsh的 依照自己的理解,初步寫了lsh 測試效果不是特別理想,引數的選擇也基本靠嘗試,姑且先把 放上來,之後再改進吧 2016.01.24 include include include include using namesp...
區域性敏感雜湊之分層法與雜湊碼法
學到現在越來越感覺計算機網路 作業系統的重要性,組成原理到沒感覺出來,求推薦資料,我想要的是描述性解釋,教材不是我想要的,謝謝!感覺自己的知識很老舊,在沒有出國也沒去高水平大學的條件下,只能通過網路學習了,感謝。在檢索技術中,索引一直需要研究的核心技術。當下,索引技術主要分為三類 基於樹的索引技術 ...