PostgreSQL死锁问题的分析与规避

一、什么是死锁？一个生动的比喻

想象一下，你和小明在一条狭窄的走廊里迎面相遇。你向左挪，想让他过去；他同时也向右挪，想让你过去。结果你们俩又堵住了。你们俩都坚持“你先动，我才能动”，于是陷入了僵局。这就是死锁。

在PostgreSQL中，死锁是指两个或更多的事务相互等待对方释放锁资源，导致所有事务都无法继续执行的状态。数据库系统不会让这种无限等待发生，它会选择一个“牺牲者”（通常是执行成本最低、开启最晚的事务）进行回滚，从而打破僵局，让其他事务得以继续。被选中的事务会收到一个类似 ERROR: deadlock detected 的错误。

二、PostgreSQL死锁是如何产生的？一个经典场景

PostgreSQL使用多版本并发控制（MVCC）来保证读写不阻塞，但写写操作之间仍然需要通过锁来保证数据一致性。死锁通常发生在多个事务以不一致的顺序获取锁时。

技术栈：PostgreSQL

让我们来看一个最经典的“账户转账”死锁场景。假设我们有一个简单的账户表：

-- 创建账户表
CREATE TABLE accounts (
    id SERIAL PRIMARY KEY,
    name VARCHAR(50) NOT NULL,
    balance DECIMAL(10, 2) NOT NULL DEFAULT 0.0
);

-- 插入测试数据
INSERT INTO accounts (name, balance) VALUES ('Alice', 1000.00), ('Bob', 1000.00);

现在，有两个并发事务要执行转账：

事务A：从Alice账户转100元给Bob。
事务B：从Bob账户转50元给Alice。

如果它们的执行顺序“撞车”了，死锁就可能发生。

-- 假设时间线如下：

-- 时间点 T1: 事务A开始
BEGIN;
-- 事务A锁定Alice的记录（id=1），准备扣款
SELECT balance FROM accounts WHERE id = 1 FOR UPDATE;
-- 此时，事务A持有了id=1的行级排他锁。

-- 时间点 T2: 事务B开始（与事务A并发）
BEGIN;
-- 事务B锁定Bob的记录（id=2），准备扣款
SELECT balance FROM accounts WHERE id = 2 FOR UPDATE;
-- 此时，事务B持有了id=2的行级排他锁。
-- 到目前为止，相安无事。

-- 时间点 T3: 事务A尝试锁定Bob的记录（id=2）
UPDATE accounts SET balance = balance - 100 WHERE id = 1; -- 先执行更新，但锁还在
-- 接着，它需要更新Bob的账户
UPDATE accounts SET balance = balance + 100 WHERE id = 2; -- 这条语句会阻塞！
-- 因为id=2的行已经被事务B锁定了，事务A进入等待状态。

-- 时间点 T4: 事务B尝试锁定Alice的记录（id=1）
UPDATE accounts SET balance = balance - 50 WHERE id = 2; -- 先更新Bob
UPDATE accounts SET balance = balance + 50 WHERE id = 1; -- 这条语句会阻塞！
-- 因为id=1的行已经被事务A锁定了，事务B也进入等待状态。

-- 此时，经典死锁形成：
-- 事务A 持有 id=1 的锁，等待 id=2 的锁。
-- 事务B 持有 id=2 的锁，等待 id=1 的锁。
-- 互相等待，无限循环。

-- 时间点 T5: PostgreSQL死锁检测器（默认1秒启动一次）检测到该循环等待。
-- 它随机选择其中一个事务（比如事务B）进行回滚，并报告错误。
-- 事务B收到：ERROR: deadlock detected
-- 事务A随后获得id=2的锁，更新成功，并提交。
ROLLBACK; -- 事务B被强制回滚
COMMIT;  -- 事务A成功提交

关键点：死锁的根源在于两个事务以相反的顺序访问并锁定资源（A先锁1后等2，B先锁2后等1）。如果它们都以相同的顺序（比如都先锁Alice再锁Bob）操作，就不会发生死锁。

三、如何分析和诊断死锁？

当你的应用日志中出现 deadlock detected 错误时，别慌。PostgreSQL已经为我们提供了强大的诊断工具。

查看错误日志：PostgreSQL的日志（通常配置在 postgresql.conf 的 log_directory 下）会记录死锁的详细信息，包括涉及的事务、等待的锁、以及当时正在执行的SQL语句。确保你的 log_lock_waits 和 deadlock_timeout 设置合理（例如 deadlock_timeout = 1s）。
使用系统视图：你可以查询 pg_stat_activity 视图来查看当前所有活动会话和它们正在执行的查询、等待事件类型（wait_event_type 和 wait_event）。如果看到大量 Lock 类型的等待，可能就是锁竞争或潜在死锁的征兆。

关联技术：pg_locks 与 pg_blocking_pids： pg_locks 视图展示了当前系统中所有的锁。结合 pg_stat_activity，可以清晰地看到谁锁定了什么，谁在等待谁。

-- 一个常用的诊断查询：查找正在被阻塞的进程以及阻塞它的进程
SELECT
    blocked_locks.pid AS blocked_pid,
    blocked_activity.usename AS blocked_user,
    blocking_locks.pid AS blocking_pid,
    blocking_activity.usename AS blocking_user,
    blocked_activity.query AS blocked_statement,
    blocking_activity.query AS blocking_statement
FROM pg_catalog.pg_locks blocked_locks
JOIN pg_catalog.pg_stat_activity blocked_activity ON blocked_activity.pid = blocked_locks.pid
JOIN pg_catalog.pg_locks blocking_locks
    ON blocking_locks.locktype = blocked_locks.locktype
    AND blocking_locks.database IS NOT DISTINCT FROM blocked_locks.database
    AND blocking_locks.relation IS NOT DISTINCT FROM blocked_locks.relation
    AND blocking_locks.page IS NOT DISTINCT FROM blocked_locks.page
    AND blocking_locks.tuple IS NOT DISTINCT FROM blocked_locks.tuple
    AND blocking_locks.virtualxid IS NOT DISTINCT FROM blocked_locks.virtualxid
    AND blocking_locks.transactionid IS NOT DISTINCT FROM blocked_locks.transactionid
    AND blocking_locks.classid IS NOT DISTINCT FROM blocked_locks.classid
    AND blocking_locks.objid IS NOT DISTINCT FROM blocked_locks.objid
    AND blocking_locks.objsubid IS NOT DISTINCT FROM blocked_locks.objsubid
    AND blocking_locks.pid != blocked_locks.pid
JOIN pg_catalog.pg_stat_activity blocking_activity ON blocking_activity.pid = blocking_locks.pid
WHERE NOT blocked_locks.granted;

这个查询能直观地展示阻塞链，是分析锁问题的利器。

四、规避死锁的实战策略

知道了原因，我们就可以对症下药。规避死锁的核心思想是消除循环等待的条件。

策略一：保持一致的访问顺序 这是最重要也是最有效的方法。在应用层设计时，确保对多个资源（如表、行）的访问，无论业务逻辑如何，都按照一个全局固定的顺序进行。例如，在转账例子中，我们可以规定总是先锁ID小的账户，再锁ID大的账户。

-- 在应用代码中，对要更新的账户ID进行排序
def transfer_money(from_id, to_id, amount):
    # 强制规定锁顺序：先锁ID小的行
    first_id, second_id = sorted([from_id, to_id])
    
    BEGIN;
    -- 1. 先锁定ID小的账户
    SELECT balance FROM accounts WHERE id = first_id FOR UPDATE;
    -- 2. 再锁定ID大的账户
    SELECT balance FROM accounts WHERE id = second_id FOR UPDATE;
    -- 3. 执行更新逻辑
    UPDATE accounts SET balance = balance - amount WHERE id = from_id;
    UPDATE accounts SET balance = balance + amount WHERE id = to_id;
    COMMIT;

这样，无论事务A和事务B的转账方向如何，它们尝试获取锁的顺序都是一样的（先1后2），从而避免了循环等待。

策略二：减小事务粒度与持有锁的时间

尽快提交：事务内不要做无关的耗时操作（如网络调用、复杂计算），完成数据库操作后立即提交，缩短锁的持有时间。
使用更细粒度的锁：如果业务允许，考虑使用 SELECT ... FOR UPDATE SKIP LOCKED。它不会等待被锁定的行，而是直接跳过，适合任务队列这类场景。但这会改变业务逻辑，需谨慎使用。

策略三：使用乐观锁 对于冲突不那么频繁的场景，乐观锁是避免死锁的绝佳选择。它不在读取时加锁，而是在更新时检查数据是否被他人修改过。

-- 为accounts表增加一个版本号字段
ALTER TABLE accounts ADD COLUMN version INTEGER DEFAULT 0;

-- 乐观锁转账流程
BEGIN;
-- 1. 读取数据，不加锁
SELECT balance, version FROM accounts WHERE id = 1;
-- 假设读到 balance=1000, version=5

-- 2. 在应用层计算新余额
new_balance = 1000 - 100 = 900

-- 3. 更新时带上版本号条件
UPDATE accounts
SET balance = 900, version = 6 -- 版本号+1
WHERE id = 1 AND version = 5; -- 关键：只有版本号还是5时才能更新

-- 4. 检查更新影响的行数
-- 如果返回的受影响行数为1，说明更新成功，没有冲突。
-- 如果返回0，说明在这期间数据被其他事务修改了（version不再是5），本次更新失败。
-- 应用层需要处理失败（例如重试或提示用户）。
COMMIT;

乐观锁完全避免了长时间的行级排他锁，从根本上杜绝了死锁，但需要应用层处理更新失败的逻辑。

策略四：设置合理的锁超时与重试机制 对于无法完全避免死锁的场景，这是一种防御性编程。

-- 在事务开始时设置一个锁等待超时
BEGIN;
SET LOCAL lock_timeout = '2s'; -- 如果等一个锁超过2秒，就自动报错退出，而不是无限等待
-- ... 执行你的SQL ...
COMMIT;

在应用代码中，捕获死锁或锁超时错误（如 deadlock_detected, lock_not_available），然后进行短暂延迟后重试整个事务。大多数ORM框架（如SQLAlchemy、Hibernate）都提供了内置的重试机制。

五、应用场景、优缺点与注意事项

应用场景：死锁问题在高并发、多事务同时更新相同数据集的应用中极为常见。例如：电商系统的库存扣减、秒杀活动；金融系统的核心账务处理、转账交易；游戏服务器的道具交易；以及任何涉及多表关联更新的复杂业务流。

技术优缺点：

一致的访问顺序：优点是从根源上预防，效果最好；缺点是需要对业务和代码有全局设计，对于复杂的、动态的访问路径难以实施。
乐观锁：优点是并发度高，无死锁风险；缺点是增加了数据库字段（版本号或时间戳），需要修改表结构，且应用逻辑变复杂，在冲突率高的场景下重试开销大。
设置超时与重试：优点是实现简单，对代码侵入性小；缺点是一种“治标”方案，如果系统负载很高，重试可能加剧竞争，形成雪崩。

注意事项：

索引是关键：更新或SELECT ... FOR UPDATE语句的WHERE条件必须使用索引，否则会锁表（或锁大量行），极大增加死锁概率和严重性。
避免长事务：这是数据库性能的通用法则，对防止死锁尤其重要。
理解隔离级别：PostgreSQL的默认隔离级别是“读已提交”。在“可重复读”或“串行化”隔离级别下，由于快照和谓词锁的存在，死锁的表现和规避策略会有所不同，需要更深入的理解。
不要忽视表级锁：ALTER TABLE、CREATE INDEX CONCURRENTLY 以外的建索引操作等DDL语句会获取表级锁，如果和应用事务的锁混合，也可能导致复杂的死锁。

文章总结

PostgreSQL的死锁并不可怕，它是高并发系统在追求数据强一致性时必然会面对的挑战。通过生动的比喻，我们理解了死锁是“循环等待”的必然结果。通过经典的转账示例，我们清晰地看到了死锁产生的具体步骤。

分析和诊断死锁，我们要善用日志和 pg_locks、pg_stat_activity 这些系统视图。而规避死锁，我们有一整套组合拳：首要策略是在应用层设计一致的资源访问顺序，这是最根本的解法。其次，可以通过减小事务粒度、采用乐观锁来降低锁冲突。最后，作为兜底方案，设置合理的锁超时和实现事务重试机制，可以提升系统的韧性和用户体验。

记住，没有银弹。在实际开发中，你需要根据业务特性、冲突频率和系统架构，灵活选择和组合这些策略。保持对数据库锁机制的敬畏，在代码中贯彻良好的事务设计习惯，才能让你的PostgreSQL应用在高压下依然稳如磐石。

敲码拾光专注于编程技术，涵盖编程语言、代码实战案例、软件开发技巧、IT前沿技术、编程开发工具，是您提升技术能力的优质网络平台。