區域性敏感雜湊演算法

*該演算法是一種衡量文字相似度的演算法，下面介紹一下這個演算法的主要思想。

假設我們有三段文字：

1，我愛你中國。

2，我愛北京天安門。

3，我愛吃蘋果

一，分詞，形成如下矩陣：

文字 1 文字 2 文字 3

我 1 1 1

愛 1 1 1

你 1 0 0

中國 1 0 0

北京 0 1 0

天安門 0 1 0

吃 0 0 1

蘋果 0 0 1

二，將我們的向量分成n段，每一段通過hash函式計算出乙個值放入桶中。

分段的原因是，讓不同的文字有機會分到同乙個桶當中。

三，api寫法

val brpls =
new bucketedrandomprojectionlsh(
)    brpls.setinputcol(
"features"
)    brpls.setoutputcol(
"hashes"
)//桶個數
brpls.setbucketlength(
10.0
)val model = brpls.fit(train)

區域性敏感雜湊LSH

參考資料簡單介紹在茫茫人海中發現相似的你區域性敏感雜湊 lsh 基本思想區域性敏感雜湊的基本思想類似於一種空間域轉換思想，lsh演算法基於乙個假設，如果兩個文字在原有的資料空間是相似的，那麼分別經過雜湊函式轉換以後的它們也具有很高的相似度相反，如果它們本身是不相似的，那麼經過轉換後它們應仍...

區域性敏感雜湊原始LSH C 實現

之前專案中用到lsh演算法來做特徵檢索，對lsh演算法很好奇，最近看了lsh的依照自己的理解，初步寫了lsh 測試效果不是特別理想，引數的選擇也基本靠嘗試，姑且先把放上來，之後再改進吧 2016.01.24 include include include include using namesp...

區域性敏感雜湊之分層法與雜湊碼法

學到現在越來越感覺計算機網路作業系統的重要性，組成原理到沒感覺出來，求推薦資料，我想要的是描述性解釋，教材不是我想要的，謝謝！感覺自己的知識很老舊，在沒有出國也沒去高水平大學的條件下，只能通過網路學習了，感謝。在檢索技術中，索引一直需要研究的核心技術。當下，索引技術主要分為三類基於樹的索引技術 ...

區域性敏感雜湊演算法

區域性敏感雜湊LSH

區域性敏感雜湊 原始LSH C 實現

區域性敏感雜湊之分層法與雜湊碼法

相關推薦

區域性敏感雜湊原始LSH C 實現