solr同義詞的配置

2021-09-02 13:47:19 字數 1091 閱讀 9776

格式編碼為utf-8

注:如下是基於solr-5.3.1進行的配置

schema.xml配置和同義詞詞庫的配置

中文,這裡採用mmseg4j作為分詞器,同義詞一般只要進行查詢的配置就可以了,同義詞的配置一般位於分詞器的後面

下面是中文的同義詞和分詞的配置

如果是英文,大體同上面的配置,主要區別是分詞器的選擇

下面是英文的分詞器和同義詞的配置

詞庫目錄的位置

分詞詞庫是首先取的core或者collection的例項目錄

單節點:

引數1:synonyms:指向同義詞庫

ignorecase:是否區分大小寫,預設為false

expand:預設是true,決定是否擴充到所有同意義的,相同的同義詞, 如果為false,則只有列表中的第乙個生效

format:預設是solr,控制同義詞怎樣被解析,目前solr(solrsynonymparser)和wordnet(wordnetsynonymparser),是被支援的,或者你也可以定義乙個支援你自己的synonymmap.buider的子類的名字

analyzer:可選的,預設是whitespacetokenize***ctory

data/chars.dic是單字與語料中的頻率,一般不用改動,一般不用改動,1.5版本中已經加到mmseg4j的jar裡了,我們不需要關心它,當然你在詞庫目錄放這個檔案可能覆蓋它。

data/units.dic是單字的單位,預設讀jar包裡的,你可以自定義覆蓋它。

data/words.dic是詞庫檔案,一行一詞,當然你也可以使用自己的

data/words***.dic 目前應該支援多個詞庫檔案,data目錄(或你定義的目錄)下讀到"words"字首且".dic"為字尾的檔案。如data/words-my.dic

注:solr-5.5.0中,同義詞庫的配置需要配置絕對路徑,如果要使用相對路徑,需要通過修改分詞原始碼

常見同義詞

目錄originate from derive from stem from spring from giant n.故事中常為殘酷而愚蠢的 巨人 巨人 巨獸 巨型植物 大公司 強大的組織 adj.巨大的 特大的 偉大的 vast adj.遼闊的 巨大的 龐大的 大量的 tremendous adj...

同義詞(別名)

同義詞 別名 注意 如果檢視其他使用者的表,報錯表或檢視不存在 可能是許可權不足 需要授權 conn as sysdba grant select on hr.employees to scott conn scott tiger select count from hr.employees con...

Oracle同義詞以及同義詞迴圈鏈錯誤。

就是別名的意思。與檢視類似,是一種對映關係。是表 索引 檢視的物件的別名。建立 create public synonym table name for user.table name 好處 節省資料空間,不同使用者操作同一種表無差別。能夠在不同的資料使用者之間實現無縫互動。簡化物件訪問 和 提高物...