中文存入資料庫 MySQL 中文全文檢索（僅學習）

php 中文分詞 splitword

scws 中文分詞

vicword乙個純php的分詞

在mysql 5.7.6之前，全文索引只支援英文全文索引，不支援中文全文索引，需要利用分詞器把中文段落預處理拆分成單詞，然後存入資料庫。

從mysql 5.7.6開始，mysql內建了ngram全文解析器，用來支援中文、日文、韓文分詞。

本文使用的mysql 版本是5.7.22，innodb資料庫引擎。ngram全文解析器

ngram就是一段文字裡面連續的n個字的序列。ngram全文解析器能夠對文字進行分詞，每個單詞是連續的n個字的序列。例如，用ngram全文解析器對「生日快樂」進行分詞:

n=1: '生', '日', '快', '樂' n=2: '生日', '日快', '快樂' n=3: '生日快', '日快樂' n=4: '生日快樂'

mysql 中使用全域性變數ngram_token_size來配置ngram中n的大小，它的取值範圍是1到10，預設值是2。通常ngram_token_size設定為要查詢的單詞的最小字數。如果需要搜尋單字，就要把ngram_token_size設定為1。在預設值是2的情況下，搜尋單字是得不到任何結果的。因為中文單詞最少是兩個漢字，推薦使用預設值2。

全域性變數ngram_token_size的兩種設定方法：

1、啟動mysqld命令時

mysqld --ngram_token_size=2

2、修改mysql配置檔案

[mysqld] ngram_token_size=2建立全文索引

1、建立表的同時建立全文索引

create table articles ( id int unsigned auto_increment not null primary key, title varchar (200), body text, fulltext (title, body) with parser ngram ) engine = innodb;

2、通過 alter table 的方式來新增

alter table articles add fulltext index ft_index (title,body) with parser ngram;

3、直接通過create index的方式

create fulltext index ft_index on articles (title,body) with parser ngram;全文檢索模式

select * from articles where match (title,body) against ('一路一帶' in natural language mode); // 不指定模式，預設使用自然語言模式 select * from articles where match (title,body) against ('一路一帶');

示例上面的示例返回結果會自動按照相關性排序，相關性高的在前面。相關性的值是乙個非負浮點數，0表示無相關性。

// 獲取相關性的值 select id,title, match (title,body) against ('手機' in natural language mode) as score from articles order by score desc;

中文存入資料庫 MySQL 中文全文檢索（僅學習）

中文存入資料庫亂碼問題

中文存入資料庫資料庫優化第一步資料型別

解決中文存到資料庫報錯問題

中文存入資料庫 MySQL 中文全文檢索（僅學習）

中文存入資料庫亂碼問題

中文存入資料庫 資料庫優化第一步 資料型別

解決中文存到資料庫報錯問題

相關推薦

中文存入資料庫資料庫優化第一步資料型別