全文索引 干擾詞檔案及其相應的語言

2021-04-19 03:47:31 字數 2660 閱讀 4372

全文索引和查詢概念  

全文索引、查詢和同步化最主要的設計要求是,在註冊進行全文檢索的所有表上都有乙個唯一的全文鍵列(或者單列主鍵)。全文索引對使用的重要字及其所在位置進行跟蹤。  

例如,假定有乙個對   devtools   表的全文索引。全文索引可能指出在   abstract   列的第   423   個和第   982   個單詞處找到了單詞   microsoft,所在的行與   productid   6   關聯。該索引結構支援對所有包含被索引單詞的項進行有效檢索,以及高階檢索操作,如短語檢索和鄰近檢索。  

為防止全文索引因包含很多對檢索沒有幫助的詞而變得臃腫,a、and、is   或   the   這類額外的詞都忽略不計。例如,指定"the   products   ordered   during   these   summer   months"與指定"products   ordered   during   summer   months"是一樣的。有這兩個字串的行都會被返回。  

目錄   /mssql/ftdata/sqlserver/config   下提供了多種語言的干擾詞列表。在安裝帶有全文檢索支援的   microsoft®   sql   server™   時會建立這個目錄,並同時安裝干擾詞檔案。干擾詞檔案可以編輯。例如,高技術公司的系統管理員可以把單詞   computer   新增到他們的干擾詞表中去。(如果編輯干擾詞檔案,則必須在更改生效之前重新填充全文目錄。)下表顯示了干擾詞檔案及其相應的語言。  

干擾詞檔案   語言    

noise.chs   簡體中文    

noise.cht   正體中文    

noise.dat   語言中性    

noise.deu   德語    

noise.eng   英語(英國)    

noise.enu   英語(美國)    

noise.esn   西班牙語    

noise.fra   法語    

noise.ita   義大利語    

noise.jpn   日語    

noise.kor   韓文    

noise.nld   荷蘭語    

noise.sve   瑞典語    

在處理全文查詢時,檢索引擎將滿足檢條件的行的鍵值返回給   microsoft   sql   server。比如有乙個   scifi   表,其中   book_no   列是主鍵列。  

book_no   writer   title    

a025   asimov   foundation's   edge    

a027   asimov   foundation   and   empire    

c011   clarke   childhood's   end    

v109   verne   mysterious   island    

假定想使用乙個全文檢索查詢來查詢包含單詞   foundation   的書名。在本例中,將從全文索引獲得值   a025   和   a027。然後   sql   server   用這些鍵值和其它欄的資訊響應該查詢。  

下表顯示了儲存全文索引資料所使用的語言。這些語言基於   sql   server   安裝期間選擇的   unicode   排序規則區域設定識別符號。  

unicode   排序規則區域設定識別符號   全文資料儲存所用的語言    

中文注音符號(台灣)   正體中文      

漢語拼音     簡體中文      

中文筆畫     簡體中文      

中文筆畫(台灣)   正體中文      

荷蘭語   荷蘭語      

英語(英國)   英語(英國)      

法語   法語      

通用   unicode   英語(美國)      

德語   德語      

德文**簿   德語      

義大利語   義大利語      

日語   日語      

日語   unicode   日語      

韓文   韓文      

韓文   unicode   韓文      

西班牙語(現代)   西班牙語      

瑞典/芬蘭語   瑞典語      

此列表中沒有的其它所有   unicode   排序規則區域設定識別符號值都對映到使用空格分隔單詞的中性語言單詞的斷字元和詞幹分隔符。  

說明     unicode   排序規則區域設定識別符號設定用於所有可進行全文索引的資料型別(如   char、nchar   等)。如果為   char、varchar   或   text   型別列的排序次序設定的語言型別,不是   unicode   排序規則區域設定識別符號語言,那麼在對   char、varchar   和   text   型別的列進行全文索引和查詢時,仍然使用   unicode   排序規則區域設定識別符號值。  

你按照他說的在c:/program   files/microsoft   sql   server/mssql/ftdata/sqlserver/config/目錄下自己生成乙個noise.chs檔案(建議複製乙份 noise.eng,然後重新更名為noise.chs),然後情況裡面的內容,保留乙個字元就行。

SQLSERVER 全文索引干擾詞處理

設定關閉全文索引干擾詞 alter fulltext index on datausa 2019 set stoplist off 如果要再開啟,可以這樣設定開啟全文索引干擾詞 alter fulltext index on tablename set stoplist system 建立全文非索引...

全文目錄 全文索引 全文非索引字表(干擾字)

全文索引 全文索引是基於要編制索引的文字中的各個標記來生成倒排序 堆積且壓縮的索引結構。每個表或索引檢視只允許有乙個全文索引。該索引最多可包含 1024 列。該物件中必須有一唯一並且非空的列。全文索引大小受執行sql server例項的計算機的可用記憶體資源限制。對全文索引的建立和維護過程 稱為 索...

mysql全文索引的坑 MySQL全文索引問題

我有乙個包含以下資料的 文章 mysql select from articles id title body 1 mysql tutorial dbms stands for database 2 how to use mysql well after you went through a 3 o...