MySQL中的中文全文搜索：基于 ngram 分词器的实现方案

1. 为什么MySQL需要中文全文搜索？

在日常开发中，我们经常遇到这样的需求：用户想在电商平台搜索"红色连衣裙"，或者在论坛查找"数据库优化技巧"。对于英文内容，MySQL的FULLTEXT索引就能很好解决，但中文就麻烦了——因为中文不像英文有天然的空格分隔单词。

传统的LIKE查询虽然能用，但效率低下，特别是数据量大时。"%红色%"这样的查询会导致全表扫描，性能堪忧。这时候，MySQL 5.7.6版本引入的ngram分词器就成了中文全文搜索的救星。

2. ngram分词器工作原理揭秘

ngram是一种基于统计的语言模型，它将文本按固定长度(n)进行切分。比如对于"数据库"这个词：

2元语法(bigram)分词结果：'数据'、'据库'
3元语法(trigram)分词结果：'数据库'

MySQL的ngram分词器默认使用bigram，也就是把中文文本按每两个连续字符为一组进行切分。这种看似简单的方法，在实际应用中却表现出色，因为它不需要依赖词典，能处理任意中文文本。

-- 创建使用ngram分词器的全文索引
CREATE TABLE articles (
    id INT UNSIGNED AUTO_INCREMENT NOT NULL PRIMARY KEY,
    title VARCHAR(200),
    content TEXT,
    FULLTEXT INDEX ft_idx (title, content) WITH PARSER ngram
) ENGINE=InnoDB CHARACTER SET utf8mb4;

-- 插入测试数据
INSERT INTO articles (title, content) VALUES 
('MySQL中文搜索方案', '本文详细介绍MySQL中使用ngram分词器实现中文全文搜索的方法'),
('数据库性能优化', '探讨如何通过索引和查询优化提升数据库性能');

3. 完整实现步骤与示例

3.1 环境准备与配置

首先确保你的MySQL版本≥5.7.6，然后设置ngram_token_size参数(在my.cnf中)：

-- 查看和设置ngram_token_size（需要重启生效）
SHOW VARIABLES LIKE 'ngram_token_size';
-- 典型设置为2，表示使用bigram
-- 在配置文件中添加：ngram_token_size=2

3.2 创建表和索引

-- 创建支持中文全文搜索的表
CREATE TABLE products (
    id INT UNSIGNED AUTO_INCREMENT PRIMARY KEY,
    name VARCHAR(255) NOT NULL,
    description TEXT,
    price DECIMAL(10,2),
    FULLTEXT INDEX ft_name_desc (name, description) WITH PARSER ngram
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;

-- 插入示例商品数据
INSERT INTO products (name, description, price) VALUES
('华为Mate40 Pro', '华为旗舰手机，搭载麒麟9000芯片，超感知徕卡电影影像系统', 5999.00),
('小米11 Ultra', '小米顶级旗舰，1亿像素主摄，2K AMOLED四曲面柔性屏', 5499.00),
('iPhone 13 Pro Max', '苹果最新旗舰，A15仿生芯片，超视网膜XDR显示屏', 8999.00),
('红米Note 11 Pro', '1亿像素相机，67W快充，三星AMOLED屏幕', 1599.00);

3.3 执行全文搜索查询

-- 基础搜索：查找包含'华为'或'旗舰'的商品
SELECT * FROM products 
WHERE MATCH(name, description) AGAINST('华为 旗舰' IN NATURAL LANGUAGE MODE);

-- 布尔模式搜索：必须包含'小米'且不包含'红米'
SELECT * FROM products 
WHERE MATCH(name, description) AGAINST('+小米 -红米' IN BOOLEAN MODE);

-- 相关性排序：搜索手机并按相关性排序
SELECT id, name, 
    MATCH(name, description) AGAINST('旗舰手机 1亿像素' IN NATURAL LANGUAGE MODE) AS relevance
FROM products
WHERE MATCH(name, description) AGAINST('旗舰手机 1亿像素' IN NATURAL LANGUAGE MODE)
ORDER BY relevance DESC;

4. 高级应用技巧

4.1 停用词处理

ngram分词器有自己的停用词列表，但我们可以自定义：

-- 查看默认停用词表
SELECT * FROM information_schema.INNODB_FT_DEFAULT_STOPWORD;

-- 创建自定义停用词表
CREATE TABLE custom_stopwords (value VARCHAR(30)) ENGINE=INNODB;
INSERT INTO custom_stopwords VALUES ('的'), ('是'), ('在');

-- 使用自定义停用词表需要修改配置
-- 在my.cnf中添加：innodb_ft_server_stopword_table=database_name/custom_stopwords

4.2 搜索结果高亮显示

虽然MySQL不直接支持高亮，但可以通过应用代码实现：

// PHP示例：实现搜索结果高亮
function highlightKeywords($text, $keywords) {
    $keywords = explode(' ', $keywords);
    foreach ($keywords as $keyword) {
        $text = preg_replace("/$keyword/u", "<span class='highlight'>$0</span>", $text);
    }
    return $text;
}

// 使用示例
$result = $db->query("SELECT name FROM products WHERE MATCH(name) AGAINST('华为')");
while ($row = $result->fetch_assoc()) {
    echo highlightKeywords($row['name'], '华为');
}

5. 性能优化实践

5.1 索引优化策略

-- 为不同的搜索模式创建专用索引
ALTER TABLE products ADD FULLTEXT INDEX ft_name (name) WITH PARSER ngram;
ALTER TABLE products ADD FULLTEXT INDEX ft_desc (description) WITH PARSER ngram;

-- 复合索引与单列索引的选择
-- 如果经常同时搜索name和description，使用复合索引
-- 如果通常只搜索单个字段，使用单列索引效率更高

5.2 查询优化建议

-- 避免在WHERE子句中使用MATCH的同时又在ORDER BY中使用
-- 不好的做法：
SELECT * FROM products 
WHERE MATCH(name, description) AGAINST('手机') 
ORDER BY MATCH(name, description) AGAINST('手机') DESC;

-- 好的做法：
SELECT *, MATCH(name, description) AGAINST('手机') AS relevance 
FROM products 
WHERE MATCH(name, description) AGAINST('手机') 
ORDER BY relevance DESC;

-- 限制结果集大小提高性能
SELECT * FROM products 
WHERE MATCH(name, description) AGAINST('手机') 
LIMIT 20;

6. 应用场景分析

ngram中文全文搜索特别适合以下场景：

电商平台：商品名称和描述的模糊搜索，如"红色连衣裙"
内容管理系统：文章、新闻的内容检索
论坛社区：帖子标题和正文的搜索
文档管理系统：中文文档内容检索
日志分析系统：错误日志的关键词查找

7. 技术优缺点评估

7.1 优势

开箱即用：无需额外安装组件，MySQL原生支持
维护简单：索引自动更新，无需重建
合理性能：相比LIKE查询有显著性能提升
灵活查询：支持自然语言和布尔搜索模式
无词典依赖：能处理新词、专有名词和网络流行语

7.2 局限性

索引体积大：ngram索引通常比原始数据大2-3倍
长词搜索不精确：如搜索"中华人民共和国"可能匹配到不相关内容
不支持词性分析：无法区分同义词或近义词
配置固定：ngram_token_size设置后需要重启才能修改

8. 注意事项与最佳实践

字符集设置：务必使用utf8mb4字符集以支持完整的中文字符
分词长度选择：2适用于大部分场景，专业领域可考虑3
索引重建：大量数据修改后建议OPTIMIZE TABLE重建索引
混合搜索：复杂需求可结合LIKE和全文搜索
结果验证：上线前务必验证搜索结果是否符合预期
性能监控：定期检查查询性能，优化慢查询

9. 替代方案对比

当数据量特别大或需求更复杂时，可以考虑：

Elasticsearch：专业的全文搜索引擎，中文支持更好但架构复杂
专业分词插件：如结巴分词MySQL插件，需要额外安装
数据库外方案：使用Sphinx、Solr等中间件

对于大多数中小型应用，MySQL的ngram方案在简单性和功能性之间取得了良好平衡。

10. 总结

MySQL的ngram分词器为中文全文搜索提供了一种简单有效的解决方案。虽然它不如专业搜索引擎强大，但对于集成在MySQL中的轻量级搜索需求已经足够。通过合理配置和优化，可以在大多数应用场景中获得满意的搜索结果和性能表现。

实现时要注意选择合适的ngram_token_size，设计高效的索引策略，并遵循查询优化最佳实践。对于更复杂的需求，可以考虑结合应用层处理或转向专业搜索引擎。

最重要的是，无论选择哪种方案，都要基于实际需求和数据特点进行充分测试，确保搜索结果的质量和性能满足业务要求。

敲码拾光专注于编程技术，涵盖编程语言、代码实战案例、软件开发技巧、IT前沿技术、编程开发工具，是您提升技术能力的优质网络平台。