lucene 使用項向量

2021-06-20 07:59:43 字數 697 閱讀 1716

1、項向量是一組由項-頻率對組成的集合。

1)設乙個文件只包括cat和dog兩個項,一共有2個文件,向量可表示為圖形上的有方向的直線,乙個向量就是乙個文件。2個項因為是乙個二維空間,cat為y軸,dog為x軸。向量為從(0,0)出發到(x,y)截止。x表示dog在該向量表示的文件中出現的頻率,y表示cat在該向量表示的文件中出現的頻率。

如果是3個文件,則有三個向量,這三個向量表示為3條從原點出發的直線,在第一象限。如果有3個項,5個文件,則表示為乙個三維空間,空間內有5條向量,分別表示5個文件。

2)向量之間的夾角越接近,這2個向量的特徵就越相似,這2個文件就越相似.

2、查詢相似書

1)public class bookslikethis

}private indexreaderreader;

private indexsearchersearcher;

publicbookslinkethis(indexreader reader)

}private void buildcategoryvectors() throws ioexceptionelse{

denominator=math.sqrt(sumofsquares)+math.sqrt(words.length);

doubleratio=dotproduct/denomiator;

returnmath.acos(ratio);

lucene 使用項向量

1 項向量是一組由項 頻率對組成的集合。1 設乙個文件只包括cat和dog兩個項,一共有2個文件,向量可表示為圖形上的有方向的直線,乙個向量就是乙個文件。2個項因為是乙個二維空間,cat為y軸,dog為x軸。向量為從 0,0 出發到 x,y 截止。x表示dog在該向量表示的文件中出現的頻率,y表示c...

Lucene使用總結

1 引入lucene相關的jar,本實驗採用的是如下版本,現在最新的版本為3.0 lucene core 2.4.0.jar lucene analyzers 2.4.0.jar lucene highlighter 2.4.0.jar je analysis 1.5.3.jar 2 lucene3...

OF框架 使用OF框架建立應用專案

開始 準備工作 開發環境已經安裝visual studio,包含web開發負載 python開發負載 nodejs開發負載 開發環境已經安裝visual studio code 開發環境已經安裝nodejs 一 從cookiecutter建立專案 第一步 第二步 第三步 第四步 第五步 二 還原資料...