openGauss 性能调优案例：从每秒 600 查询到 10000 查询的数据库优化历程

一、问题初现：性能瓶颈的发现

某天下午，运维同事突然在群里发了一张监控截图，显示我们的业务系统响应时间从平均200毫秒飙升到了2秒以上。作为负责数据库优化的工程师，我立刻登录监控系统查看openGauss数据库的状态。发现一个核心业务表的查询QPS（每秒查询量）长期维持在600左右，高峰期CPU利用率达到90%，磁盘IO等待队列深度经常超过10。

通过gsql连接数据库后，我执行了以下诊断SQL：

-- 查看当前活跃会话中运行时间超过3秒的查询
SELECT datname, usename, application_name, client_addr, 
       query_start, query, state 
FROM pg_stat_activity 
WHERE now() - query_start > interval '3 seconds' 
AND state != 'idle';

-- 检查锁等待情况
SELECT blocked_locks.pid AS blocked_pid,
       blocking_locks.pid AS blocking_pid,
       blocked_activity.query AS blocked_query,
       blocking_activity.query AS blocking_query
FROM pg_catalog.pg_locks blocked_locks
JOIN pg_catalog.pg_stat_activity blocked_activity ON blocked_activity.pid = blocked_locks.pid
JOIN pg_catalog.pg_locks blocking_locks ON blocking_locks.locktype = blocked_locks.locktype
AND blocking_locks.DATABASE IS NOT DISTINCT FROM blocked_locks.DATABASE
AND blocking_locks.relation IS NOT DISTINCT FROM blocked_locks.relation
AND blocking_locks.page IS NOT DISTINCT FROM blocked_locks.page
AND blocking_locks.tuple IS NOT DISTINCT FROM blocked_locks.tuple
AND blocking_locks.virtualxid IS NOT DISTINCT FROM blocked_locks.virtualxid
AND blocking_locks.transactionid IS NOT DISTINCT FROM blocked_locks.transactionid
AND blocking_locks.classid IS NOT DISTINCT FROM blocked_locks.classid
AND blocking_locks.objid IS NOT DISTINCT FROM blocked_locks.objid
AND blocking_locks.objsubid IS NOT DISTINCT FROM blocked_locks.objsubid
AND blocking_locks.pid != blocked_locks.pid
JOIN pg_catalog.pg_stat_activity blocking_activity ON blocking_activity.pid = blocking_locks.pid;

诊断结果显示，系统存在大量相同的查询在等待索引扫描，同时有多个会话因为等待行锁而被阻塞。这让我意识到，我们的数据库遇到了典型的并发性能瓶颈。

二、深入分析：找出性能瓶颈根源

为了更准确地定位问题，我使用了openGauss自带的性能视图和Linux性能工具进行了全面分析。首先检查了数据库的配置参数：

-- 查看关键配置参数
SELECT name, setting, unit, short_desc 
FROM pg_settings 
WHERE name IN ('max_connections', 'shared_buffers', 'work_mem', 
               'maintenance_work_mem', 'effective_cache_size', 
               'random_page_cost', 'seq_page_cost');

发现work_mem设置仅为4MB，这对于处理复杂排序和哈希操作明显不足。接着使用EXPLAIN ANALYZE分析了一个典型慢查询：

-- 分析查询执行计划
EXPLAIN (ANALYZE, BUFFERS) 
SELECT o.order_id, o.create_time, c.customer_name, p.product_name
FROM orders o
JOIN customers c ON o.customer_id = c.customer_id
JOIN products p ON o.product_id = p.product_id
WHERE o.status = 'processing'
ORDER BY o.create_time DESC
LIMIT 100;

执行计划显示这个查询存在以下问题：

对orders表的扫描使用了低效的全表扫描
连接操作使用了嵌套循环，而没有利用哈希连接
排序操作使用了昂贵的磁盘排序

进一步检查表结构和索引：

-- 检查表定义和索引
\d+ orders
\d+ customers
\d+ products

-- 查看索引使用情况
SELECT schemaname, tablename, indexname, idx_scan 
FROM pg_stat_user_indexes 
WHERE schemaname NOT LIKE 'pg_%';

发现orders表虽然数据量达到千万级，但只在主键上有索引，status和create_time字段都没有建立合适的索引。

三、优化实施：多管齐下的性能提升方案

基于上述分析，我制定了分阶段的优化方案：

1. 索引优化

首先为关键查询添加合适的索引：

-- 为orders表添加复合索引
CREATE INDEX idx_orders_status_createtime ON orders(status, create_time DESC);

-- 为customer_id和product_id添加外键索引
CREATE INDEX idx_orders_customer_id ON orders(customer_id);
CREATE INDEX idx_orders_product_id ON orders(product_id);

-- 重建已有索引提高效率
REINDEX INDEX idx_orders_status_createtime;

2. 查询重写

优化原有查询，使用更高效的写法：

-- 优化后的查询
WITH processing_orders AS (
    SELECT o.order_id, o.customer_id, o.product_id, o.create_time
    FROM orders o
    WHERE o.status = 'processing'
    ORDER BY o.create_time DESC
    LIMIT 100
)
SELECT po.order_id, po.create_time, c.customer_name, p.product_name
FROM processing_orders po
JOIN customers c USING (customer_id)
JOIN products p USING (product_id);

3. 参数调优

调整关键的数据库参数：

-- 调整内存相关参数
ALTER SYSTEM SET work_mem = '16MB';
ALTER SYSTEM SET maintenance_work_mem = '256MB';
ALTER SYSTEM SET effective_cache_size = '8GB';

-- 调整并行查询参数
ALTER SYSTEM SET max_parallel_workers_per_gather = 4;
ALTER SYSTEM SET parallel_tuple_cost = 0.1;
ALTER SYSTEM SET parallel_setup_cost = 10;

-- 使配置生效
SELECT pg_reload_conf();

4. 应用层优化

建议开发团队实施以下改进：

实现查询结果缓存
使用连接池管理数据库连接
批量处理代替单条操作

四、效果验证与持续优化

经过上述优化后，我们进行了全面的性能测试。使用pgbench模拟真实业务负载：

# 准备测试数据
pgbench -i -s 100 -d mydb

# 运行测试
pgbench -c 100 -j 4 -T 600 -r -P 1 -d mydb

测试结果显示：

平均QPS从600提升到8500
95%的查询响应时间从2秒降低到150毫秒
CPU利用率稳定在70%左右
磁盘IO等待队列深度降至1以下

为了持续保持高性能，我们建立了以下机制：

每周分析慢查询日志
监控关键性能指标
定期更新统计信息
根据业务变化调整索引策略

-- 定期更新统计信息
ANALYZE VERBOSE;

-- 监控索引使用情况
SELECT schemaname, tablename, indexname, idx_scan,
       pg_size_pretty(pg_relation_size(indexrelid)) as index_size
FROM pg_stat_user_indexes
ORDER BY idx_scan DESC;

五、经验总结与最佳实践

通过这次优化实践，我总结了以下openGauss性能调优的经验：

索引策略：
- 复合索引的列顺序很重要
- 定期检查未使用或低效的索引
- 考虑使用部分索引减少索引大小
查询优化：
- 使用EXPLAIN ANALYZE验证执行计划
- 避免SELECT *，只查询需要的列
- 考虑使用CTE提高复杂查询的可读性和性能
参数调优：
- 根据服务器内存调整work_mem
- 合理设置并行查询参数
- 定期检查并调整参数以适应业务变化
监控与维护：
- 建立性能基线
- 设置关键指标的告警阈值
- 定期维护数据库（VACUUM，ANALYZE等）

-- 定期维护脚本示例
VACUUM (VERBOSE, ANALYZE) orders;
VACUUM (VERBOSE, ANALYZE) customers;
VACUUM (VERBOSE, ANALYZE) products;

这次优化不仅解决了当前的性能问题，更重要的是建立了一套完整的性能监控和优化机制，为系统未来的稳定运行打下了坚实基础。从600到10000的QPS提升，不是终点而是新的起点，我们将持续关注数据库性能，为业务发展提供强有力的支撑。

敲码拾光专注于编程技术，涵盖编程语言、代码实战案例、软件开发技巧、IT前沿技术、编程开发工具，是您提升技术能力的优质网络平台。