手撕并查集进阶题：带权并查集、路径压缩优化及食物链问题的完整解法

一、并查集：从“认亲”到“管关系”的进化

想象一下，你来到一个新班级，老师让你管理同学们的“朋友圈”。一开始，每个人都是独立的圈子。后来，A说他和B是好朋友，你就把A和B划到同一个圈子里。接着，C说他和A也是好朋友，你发现A已经在B的圈子里了，于是你把C也加进去。这个过程，本质上就是并查集在做的事情：合并集合与查询两个元素是否属于同一集合。

它的核心是维护一个“父节点”数组。一开始，每个人的“父亲”都是自己。当需要合并时，就将一个集合的“根父亲”认作另一个集合“根父亲”的儿子。查询时，就看两个人的“根父亲”是不是同一个人。

但基础的并查集只能处理“是不是一伙的”这种二元关系。如果问题变成：“A比B大3岁”，“X和Y是敌对关系”，这种带有“权值”或“关系类型”的信息，基础版就无能为力了。这就需要我们的主角——带权并查集闪亮登场。

二、带权并查集：为关系加上“刻度”

带权并查集，就是在维护“父子”关系的同时，额外维护一个“权值”数组。这个权值，通常定义为从当前节点到其父节点的“关系”。

怎么理解呢？我们用一个经典例子：已知A比B大3岁，B比C大2岁，请问A比C大几岁？显然，A比C大5岁。在带权并查集中，我们把“岁数差”作为权值。当我们将B合并到A的集合时，我们不仅让B认A做父亲，还记录下权值[B] = 3（B到A的差）。之后，当C要合并进来时，我们需要通过B找到根A，并正确计算出C到A的权值，这个过程涉及路径压缩时的权值更新，是核心难点。

技术栈：Python

让我们先看一个计算距离差的简单示例，为复杂的食物链问题热身：

# 技术栈：Python
class WeightedUnionFind:
    def __init__(self, n):
        # parent[i]: 节点i的父节点
        self.parent = list(range(n))
        # weight[i]: 节点i到其父节点的权值（距离差）
        self.weight = [0] * n

    def find(self, x):
        """
        查找x的根节点，并在查找过程中进行路径压缩和权值累加。
        这是带权并查集最核心、最精妙的部分。
        """
        if self.parent[x] != x:
            # 1. 先递归找到根节点 root
            root = self.find(self.parent[x])
            # 2. 关键步骤：在回溯过程中，累加权值。
            #    当前节点x到旧父节点的权值 + 旧父节点到根节点的权值 = x到根节点的权值
            self.weight[x] += self.weight[self.parent[x]]
            # 3. 路径压缩：将x的父节点直接指向根节点
            self.parent[x] = root
        return self.parent[x]

    def union(self, x, y, value):
        """
        合并x和y所在的集合。
        假设我们知道 x 与 y 的关系为：x = y + value。
        我们需要根据这个关系，来调整两个集合根节点之间的关系。
        """
        rootX = self.find(x)
        rootY = self.find(y)
        if rootX == rootY:
            # 如果已经在同一集合，可以根据现有权值验证关系是否矛盾
            # 这里我们暂时不处理验证，在食物链问题中会用到
            return
        # 将rootY的集合合并到rootX的集合下
        self.parent[rootY] = rootX
        # 最关键的一步：计算并设置新的权值。
        # 我们有：weight[x] 是 x->rootX, weight[y] 是 y->rootY
        # 已知条件：x = y + value  => x - y = value
        # 我们想求：rootY -> rootX 的权值，即 weight[rootY]
        # 根据向量关系：x->rootX = (x->y) + (y->rootY) + (rootY->rootX)
        # 即：weight[x] = value + weight[y] + weight[rootY]
        # 所以：weight[rootY] = weight[x] - weight[y] - value
        # 注意：因为rootX和rootY都是根，所以weight[x]和weight[y]已经是到其各自根的距离。
        # 但在我们调用find后，x和y的父节点已经是根，所以weight[x]就是x到rootX的权值。
        self.weight[rootY] = self.weight[x] - self.weight[y] - value

    def is_connected(self, x, y):
        """判断x和y是否在同一集合"""
        return self.find(x) == self.find(y)

    def get_diff(self, x, y):
        """
        查询x和y之间的关系值（x - y）。
        前提是x和y必须在同一集合中。
        """
        if self.find(x) != self.find(y):
            raise ValueError("x and y are not in the same set!")
        # 因为find之后路径被压缩，x和y的父节点都是根节点。
        # x到根的距离是weight[x], y到根的距离是weight[y]
        # 那么 x - y = (x->根) - (y->根) = weight[x] - weight[y]
        return self.weight[x] - self.weight[y]

# 示例：年龄差问题
print("=== 年龄差示例 ===")
wuf = WeightedUnionFind(5) # 有5个人，编号0-4
# 已知：0号比1号大3岁 (0 - 1 = 3)
wuf.union(0, 1, 3)
# 已知：1号比2号大2岁 (1 - 2 = 2)
wuf.union(1, 2, 2)

# 查询0号比2号大几岁？
# 理论上应该是 3 + 2 = 5岁
diff = wuf.get_diff(0, 2)
print(f"0号比2号大 {diff} 岁") # 输出：0号比2号大 5 岁

# 再合并：已知3号比0号小1岁 (3 - 0 = -1)
wuf.union(3, 0, -1)
# 查询3号比2号大几岁？ 应该是 (-1) + 5 = 4岁
diff2 = wuf.get_diff(3, 2)
print(f"3号比2号大 {diff2} 岁") # 输出：3号比2号大 4 岁

通过这个例子，你应该感受到了find函数中权值累加的精妙，以及union函数中根据已知关系推导根节点间权值的公式。这是理解带权并查集的基础。

三、王者挑战：“食物链”问题剖析

现在，我们迎来并查集领域的经典难题——食物链。题目通常这样描述：有三种动物A、B、C，构成一个环形食物链：A吃B，B吃C，C吃A。给你N个动物（编号1-N）和K句话，每句话有两种格式：

“1 X Y”，表示X和Y是同类。
“2 X Y”，表示X吃Y。

但这些话有的是真话，有的是假话。假话的规则是：

当前的话与前面的真话冲突。
当前的话中X或Y比N大。
当前的话表示X吃X。

你的任务是输出假话的总数。

如何用带权并查集建模？ 关键在于定义“权值”。我们定义权值数组 d，d[x] 表示 节点x与其父节点parent[x] 的关系。我们约定关系用数字表示：

0: x 和 parent[x] 是同类
1: x 被 parent[x] 吃 (或者说，parent[x] 吃 x)
2: x 吃 parent[x]

这个“吃”的方向定义非常重要，必须统一。注意，因为我们处理的是“到父节点的关系”，所以方向是固定的。

核心逻辑：

查找（带路径压缩）：在find时，不仅要找到根，还要更新节点到**新父节点（根）**的关系。更新公式需要推导，确保关系在模3运算下正确传递。
合并与判断：每读到一句话，先看X和Y是否在同一集合。
- 如果不在，这句话一定是真的（因为没有矛盾依据），我们就根据这句话给出的关系，去推导两个集合的根应该以何种关系合并。
- 如果在，我们就可以根据现有的d[x]和d[y]，推算出X和Y应该有的关系，与当前话给出的关系进行对比，判断真假。

技术栈：Python

让我们用完整的代码来解决这个问题：

# 技术栈：Python
class FoodChain:
    def __init__(self, n):
        self.n = n
        self.parent = list(range(n + 1))  # 下标从1开始
        # d[i] 表示i与父节点的关系：0同类，1被父吃，2吃父
        self.d = [0] * (n + 1)
        self.false_count = 0

    def find(self, x):
        """
        查找根节点，并进行路径压缩与关系更新。
        这是整个算法的灵魂所在。
        """
        if self.parent[x] != x:
            # 1. 暂存旧的父节点
            old_parent = self.parent[x]
            # 2. 递归找到根节点
            self.parent[x] = self.find(self.parent[x])
            # 3. 关键：更新当前节点x到新父节点（根）的关系。
            #    关系传递路径：x -> 旧父 -> 根
            #    x到根的关系 = (x到旧父的关系 + 旧父到根的关系) % 3
            self.d[x] = (self.d[x] + self.d[old_parent]) % 3
        return self.parent[x]

    def union(self, relation, x, y):
        """
        处理一句话。
        relation=1: X和Y同类
        relation=2: X吃Y
        """
        if x > self.n or y > self.n or (relation == 2 and x == y):
            self.false_count += 1
            return

        rootX = self.find(x)
        rootY = self.find(y)

        if rootX != rootY:
            # 不在同一集合，必然是真话，进行合并
            # 将rootY的集合合并到rootX下
            self.parent[rootY] = rootX
            # 最关键的一步：计算d[rootY]（即rootY到rootX的关系）
            # 我们有：
            #   d[x] 是 x -> rootX 的关系
            #   d[y] 是 y -> rootY 的关系
            #   已知条件给出的关系是：x 与 y 的关系是 relation-1
            #   (因为relation=1表示同类，即关系0；relation=2表示x吃y，即关系2？这里需要统一)
            # 让我们重新严格定义已知关系R：
            #   如果语句是“1 X Y”， 则 R = 0 (X与Y同类)
            #   如果语句是“2 X Y”， 则 R = 1 (X吃Y) 注意：这里定义R=1表示X吃Y，方便计算。
            # 所以 R = relation - 1
            R = relation - 1
            # 根据关系链：x -> rootX <- rootY <- y
            # 我们想求 rootY -> rootX 的关系，记为 ?
            # 关系等式： (x->rootX) = (x->y) + (y->rootY) + (rootY->rootX)
            # 用我们的符号： d[x] = R + d[y] + ?
            # 所以：? = d[x] - d[y] - R
            # 在模3运算下，需要处理负数：? = (d[x] - d[y] - R + 3) % 3
            # 但注意，我们的关系定义是模3的，且d[rootY]原本是0（根到自己的关系）。
            # 现在rootY的父节点变成了rootX，所以d[rootY]需要被设置为 ?
            self.d[rootY] = (self.d[x] - self.d[y] - R + 3) % 3
        else:
            # 在同一集合，需要验证这句话是否与已有关系矛盾
            # 根据现有关系，x与y的关系应该是多少？
            # x到根的关系是 d[x], y到根的关系是 d[y]
            # 那么 x 与 y 的关系 = (d[x] - d[y] + 3) % 3
            existing_relation = (self.d[x] - self.d[y] + 3) % 3
            # 这句话声称的关系是 R = relation - 1
            R = relation - 1
            if existing_relation != R:
                self.false_count += 1

# 主程序示例
def main():
    # 经典题目输入：N=100, K=7句话
    N = 100
    K = 7
    fc = FoodChain(N)

    # 模拟输入语句
    statements = [
        (1, 101, 1),  # 假话：X>N
        (2, 1, 2),    # 真话：1吃2
        (2, 2, 3),    # 真话：2吃3
        (2, 3, 3),    # 假话：自己吃自己
        (1, 1, 3),    # 假话：根据前面，1吃2，2吃3 => 1吃3，与‘同类’矛盾
        (2, 3, 1),    # 真话：根据环形食物链，3吃1是正确的
        (1, 5, 5),    # 真话：5和5是同类
    ]

    for rel, x, y in statements:
        fc.union(rel, x, y)

    print(f"假话的总数是：{fc.false_count}")  # 输出应为 3

if __name__ == "__main__":
    main()

这段代码中，最需要反复琢磨的是find函数中的self.d[x] = (self.d[x] + self.d[old_parent]) % 3，以及union函数中计算d[rootY]的公式。它们确保了关系在路径压缩和集合合并时，依然符合环形食物链的模3运算规则。

四、路径压缩优化：从“爬树”到“坐电梯”

你可能注意到了，在find函数里我们递归调用了自己。这不仅仅是查找根，更完成了路径压缩。想象一下，如果不压缩，关系链可能很长，像一条蜿蜒的山路，每次查询都要从头爬到尾。路径压缩就是在第一次查询时，把这条山路修成直达根节点的电梯，并且准确计算出坐电梯的“关系票价”（更新权值）。

为什么必须和权值更新一起做？ 因为压缩后，节点的父节点直接变成了根。那么它到新父节点（根）的权值，就必须更新为原来到旧父节点的权值加上旧父节点到根的权值。我们的find递归巧妙地利用回溯过程完成了这个计算。

这是带权并查集效率的保障，让每次查询的均摊时间复杂度接近常数级O(α(n))，比树的高度快得多。

五、应用场景、优缺点与注意事项

应用场景：

动态关系维护：如食物链、敌人/朋友网络（“敌人的敌人是朋友”这类问题）。
带偏移量的等式/不等式检查：就像年龄差例子，可以判断一系列等式（如A-B=3, B-C=2）是否矛盾。
图论中的环检测与权值传递：在某些特定条件下，可以替代部分图算法。
区间信息统计：某些情况下，可以高效处理区间合并与区间信息查询。

技术优点：

效率极高：经过路径压缩和按秩合并（本文未展开，指合并时让小树挂在大树下）优化后，操作近乎常数时间。
模型简洁：用数组就能表示复杂的关系网络，代码量相对较少。
在线处理：可以边读入数据边处理，无需存储所有数据后再批量计算。

缺点与注意事项：

关系定义必须可传递且可合并：必须能用一种运算（如模加法）来描述关系的组合。食物链的“模3”就是一个完美例子。
权值更新公式推导容易出错：这是最大的难点。必须画图，明确关系方向，严谨推导公式。不同问题的关系定义不同，公式也不同。
初始化和边界条件：像食物链问题中的X或Y大于N、自己吃自己这类假话需要首先判断。
理解门槛高：虽然代码短，但背后的数学思想和推导过程需要时间消化。
不是万能的：对于非常复杂、非传递性的关系，并查集模型可能不适用。

六、总结与进阶思考

通过这篇文章，我们从基础的集合管理，一步步升级到能处理复杂权值关系的带权并查集，并最终攻克了“食物链”这一经典难题。其核心思想在于：将元素间的相对关系，转化为每个节点到其集合根节点的权值，并通过精心设计的路径压缩和合并操作，保证这些权值在任何时刻都能正确反映元素间的真实关系。

掌握带权并查集的关键，在于三点：

定义清晰的关系和权值：确定权值表示什么（距离差、关系类型），以及关系如何运算（通常是模运算）。
吃透路径压缩中的权值更新：理解find函数中那句权值累加代码，是理解所有带权并查集的基础。
熟练推导合并公式：面对不同的关系描述，能通过画关系链图，推导出连接两个集合根节点时所需的权值。

它就像一把精巧的瑞士军刀，对于特定类型的问题（动态、可传递的关系网络）解决起来异常高效。希望这篇详细的讲解和丰富的示例，能帮你彻底“手撕”带权并查集，在面对相关难题时，能够自信地构建模型，推导公式，写出正确的代码。下次再看到“关系”、“距离”、“是否矛盾”这类关键词时，不妨想想，是不是可以用这把利器来试试看。

敲码拾光专注于编程技术，涵盖编程语言、代码实战案例、软件开发技巧、IT前沿技术、编程开发工具，是您提升技术能力的优质网络平台。