堆的面试题：TopK问题、数据流中的中位数、滑动窗口最大值

一、引言：当“堆”不再是杂物堆

在编程面试中，数据结构就像工具箱里的各种工具。今天我们要聊的“堆”，可不是你房间里那个需要整理的杂物堆，而是一种非常高效、形状像一棵树的数据结构。它有个绝活：能让你以最快的速度找到一堆数里的最大值或者最小值。想象一下，你有一大锅汤（很多数据），你想立刻知道最烫的那一勺（最大值）或者最凉的那一勺（最小值）在哪里，用“堆”这个工具就能瞬间搞定。

基于这个绝活，“堆”在解决一些经典面试题时大放异彩。今天，我们就来深入聊聊三个让无数面试者又爱又恨的题目：如何在千万数据中快速找出前K个最大的（TopK问题）？如何在一个持续不断流入的数据流中，随时知道中位数是多少？以及，如何在一个滑动的窗口中，实时追踪最大值？这三个问题，用“堆”来解决，可谓是恰到好处。我们会用最生活化的语言和详尽的例子，带你彻底搞懂它们。

（技术栈统一声明：以下所有代码示例均使用 Java 语言实现，并基于标准库中的 PriorityQueue 类，它是Java对“堆”数据结构的实现。）

二、问题一：TopK问题——大海捞针，只捞最大的那几根

场景：假设你是一家电商公司的数据分析师，数据库里躺着上亿条商品销售记录。老板突然问你：“立刻告诉我今天销量最高的10个商品是什么！” 你不可能把上亿条记录都排序一遍，那太慢了。这时候，TopK问题的解决方案就派上用场了。

核心思路：我们要找最大的K个元素，可以用一个最小堆。什么是“最小堆”？就是堆顶的那个元素，永远是堆里最小的。我们维护一个大小固定为K的堆。

先把前K个元素放进堆里。
对于后面来的每一个新元素，我们只和堆顶（当前K个里最小的那个）比较。
如果新元素比堆顶还大，说明它更有资格进入“TopK俱乐部”，就把堆顶（最小的）踢出去，把新元素加进来。
这样，遍历完所有数据后，堆里剩下的就是最大的K个元素。

为什么用最小堆？ 因为堆顶最小，是“TopK俱乐部”的守门员。新来的元素只要比这个守门员强，就能进去。这保证了我们始终用最小的代价（只和最小的比）来维护这个精英俱乐部。

// 技术栈：Java
import java.util.PriorityQueue;
import java.util.Arrays;

public class TopKProblem {
    /**
     * 找出数组中最小的K个数（使用最大堆，思路类似）
     * 这里演示找出最大的K个数，使用最小堆。
     * @param nums 输入数组
     * @param k 需要找出的元素个数
     * @return 最大的K个数组成的列表
     */
    public static int[] findTopKLargest(int[] nums, int k) {
        // 边界条件检查
        if (nums == null || nums.length == 0 || k <= 0 || k > nums.length) {
            return new int[0];
        }

        // Java的PriorityQueue默认是最小堆（堆顶最小）
        // 创建一个容量为k的最小堆
        PriorityQueue<Integer> minHeap = new PriorityQueue<>(k);

        // 1. 先将前k个元素放入堆中，建立初始的“TopK俱乐部”
        for (int i = 0; i < k; i++) {
            minHeap.offer(nums[i]);
        }

        // 2. 遍历剩余的元素
        for (int i = k; i < nums.length; i++) {
            // 获取当前堆顶，即俱乐部里最弱的成员
            int top = minHeap.peek();
            // 如果新来的元素比最弱的成员更强
            if (nums[i] > top) {
                // 把最弱的成员淘汰
                minHeap.poll();
                // 让新来的强者加入俱乐部
                minHeap.offer(nums[i]);
            }
            // 如果新元素更弱，则无视它，俱乐部成员不变
        }

        // 3. 此时堆中剩下的就是最大的K个元素
        int[] result = new int[k];
        for (int i = 0; i < k; i++) {
            // 依次弹出，注意弹出顺序是从小到大
            result[i] = minHeap.poll();
        }
        // 因为我们找最大的，通常可能希望结果从大到小，这里可以反转一下
        // 但问题本身只要求找出，顺序不限，所以保持原样即可
        return result;
    }

    public static void main(String[] args) {
        int[] sales = {3, 10, 1000, 50, 80, 200, 15, 1, 500, 700, 300};
        int k = 3;
        int[] top3 = findTopKLargest(sales, k);
        System.out.println("销量最高的" + k + "个商品是: " + Arrays.toString(top3));
        // 输出可能为 [300, 500, 700] 或类似，取决于堆内部顺序，但一定是最大的三个数
    }
}

优缺点与注意：

优点：时间复杂度是O(N log K)，其中N是总数据量。这比直接全排序O(N log N)快得多，尤其是在K远小于N时（比如从十亿数据里找前10个）。空间复杂度只有O(K)，非常节省内存。
缺点：需要一次性将所有数据（或能遍历的数据源）过一遍。对于真正无法全部加载的超级海量数据，可能需要结合分布式处理。
注意：PriorityQueue默认是最小堆。如果要实现找“最小的K个数”，就需要使用最大堆。在Java中，可以通过传入自定义比较器 new PriorityQueue<>((a, b) -> b - a) 来创建最大堆。

三、问题二：数据流中的中位数——动态平衡的艺术

场景：现在数据不是一次性给你的了，而是一个接一个，像流水一样源源不断地过来（比如实时监控系统的心跳数据、股票价格）。老板要求，在任何时刻，你都能立刻告诉他到目前为止所有数据的中位数是多少。中位数就是排序后位于中间的那个数（或中间两个数的平均值）。

核心思路：用两个堆来巧妙维护数据流。一个最大堆存放较小的一半数字，一个最小堆存放较大的一半数字。并且我们约定：

最大堆的堆顶是较小一半里最大的。
最小堆的堆顶是较大一半里最小的。
两个堆的大小保持平衡，要么相等，要么最大堆比最小堆多一个元素。

这样，中位数就只与这两个堆的堆顶有关！如果两个堆大小相等，中位数就是两个堆顶的平均值；如果最大堆多一个，中位数就是最大堆的堆顶。

如何插入新数据？ 这是精髓所在。我们先无脑把新数加入最大堆，然后为了维护“最大堆所有元素 <= 最小堆所有元素”的规则，我们需要做一次“平衡操作”：把最大堆的堆顶（可能变大了）移到最小堆，或者把最小堆的堆顶（可能变小了）移回最大堆，并始终确保两个堆的大小约定。

// 技术栈：Java
import java.util.PriorityQueue;

public class MedianFinder {
    // maxHeap 存储较小的一半，是最大堆（堆顶最大）
    private PriorityQueue<Integer> maxHeap;
    // minHeap 存储较大的一半，是最小堆（堆顶最小）
    private PriorityQueue<Integer> minHeap;

    public MedianFinder() {
        // 最大堆通过自定义比较器实现：b - a
        maxHeap = new PriorityQueue<>((a, b) -> b - a);
        // 最小堆是默认的：a - b
        minHeap = new PriorityQueue<>();
    }

    /**
     * 向数据流中添加一个数字
     * @param num 新来的数字
     */
    public void addNum(int num) {
        // 1. 先加入最大堆（较小的一半）
        maxHeap.offer(num);

        // 2. 平衡步骤1：确保最大堆的堆顶 <= 最小堆的堆顶
        //    把最大堆里最大的（堆顶）拿出来，放到最小堆（较大的一半）里
        minHeap.offer(maxHeap.poll());

        // 3. 平衡步骤2：维护两个堆的大小关系
        //    如果最小堆元素比最大堆多，就把最小堆里最小的（堆顶）挪回最大堆
        if (minHeap.size() > maxHeap.size()) {
            maxHeap.offer(minHeap.poll());
        }
        // 至此，保证了：1. maxHeap堆顶 <= minHeap堆顶
        //             2. maxHeap.size() >= minHeap.size()
        //             3. 两者大小差不超过1
    }

    /**
     * 查找当前数据流的中位数
     * @return 中位数
     */
    public double findMedian() {
        // 如果最大堆元素多一个，中位数就是它的堆顶
        if (maxHeap.size() > minHeap.size()) {
            return maxHeap.peek();
        } else {
            // 否则，两个堆大小相等，中位数是两者堆顶的平均值
            return (maxHeap.peek() + minHeap.peek()) / 2.0;
        }
    }

    public static void main(String[] args) {
        MedianFinder finder = new MedianFinder();
        int[] stream = {5, 3, 8, 2, 9, 1};

        System.out.println("数据流依次加入: 5, 3, 8, 2, 9, 1");
        for (int num : stream) {
            finder.addNum(num);
            System.out.printf("  加入 %d 后，当前中位数是: %.1f%n", num, finder.findMedian());
        }
        // 输出示例：
        // 加入 5 后，当前中位数是: 5.0
        // 加入 3 后，当前中位数是: 4.0  ( (5+3)/2 )
        // 加入 8 后，当前中位数是: 5.0
        // 加入 2 后，当前中位数是: 4.0  ( (3+5)/2 )
        // 加入 9 后，当前中位数是: 5.0
        // 加入 1 后，当前中位数是: 4.0  ( (3+5)/2 )
    }
}

优缺点与注意：

优点：添加数字的时间复杂度是O(log N)，查找中位数是O(1)，完美适应了数据流实时更新的场景。
缺点：需要同时维护两个堆，编码逻辑比单个堆稍复杂。
注意：要清晰地定义好两个堆分别存什么，以及大小关系的约定。插入时的平衡操作是保证算法正确的关键。

四、问题三：滑动窗口最大值——请出“单调队列”这位帮手

场景：这次数据是一个固定长度的数组，但有一个宽度为K的窗口从左滑到右。你需要输出窗口每次滑动时，窗口内的最大值。例如，监控一个小时内每10分钟的峰值请求量。

核心思路：虽然题目是关于“堆”的面试题，但解决这个问题最经典且高效的方法，是使用单调队列。不过，用最大堆也能解，我们先理解堆的解法，再对比引出更优的单调队列。

堆解法：我们维护一个最大堆，堆里存放窗口内的元素及其索引。当窗口滑动时，新元素入堆，旧元素出窗口。但“出窗口”的元素不一定在堆顶，我们采用懒删除策略：只有当堆顶元素的索引不在当前窗口范围内时，才将其弹出。这样，堆顶就始终是当前窗口的最大值。

// 技术栈：Java
import java.util.PriorityQueue;

public class SlidingWindowMax {
    /**
     * 使用最大堆（带索引）解决滑动窗口最大值问题
     * @param nums 输入数组
     * @param k 窗口大小
     * @return 每个窗口最大值的数组
     */
    public static int[] maxSlidingWindowWithHeap(int[] nums, int k) {
        if (nums == null || nums.length == 0 || k <= 0) {
            return new int[0];
        }
        int n = nums.length;
        // 结果数组的长度
        int[] result = new int[n - k + 1];
        int resultIndex = 0;

        // 最大堆，存储[元素值, 元素索引]。按元素值降序排列。
        PriorityQueue<int[]> maxHeap = new PriorityQueue<>((a, b) -> b[0] - a[0]);

        for (int i = 0; i < n; i++) {
            // 1. 将当前元素和索引加入堆
            maxHeap.offer(new int[]{nums[i], i});

            // 2. 当窗口形成后（i >= k-1），开始记录答案
            if (i >= k - 1) {
                // 3. “懒删除”：检查堆顶元素是否还在当前窗口内
                //    当前窗口范围是 [i-k+1, i]
                while (maxHeap.peek()[1] < i - k + 1) {
                    maxHeap.poll(); // 堆顶索引已过期，弹出
                }
                // 4. 此时堆顶就是当前窗口的最大值
                result[resultIndex++] = maxHeap.peek()[0];
            }
        }
        return result;
    }

    public static void main(String[] args) {
        int[] nums = {1, 3, -1, -3, 5, 3, 6, 7};
        int k = 3;
        int[] maxInWindows = maxSlidingWindowWithHeap(nums, k);
        System.out.print("滑动窗口最大值: ");
        for (int val : maxInWindows) {
            System.out.print(val + " ");
        }
        // 输出: 3 3 5 5 6 7
    }
}

关联技术：单调队列详解 堆解法的时间复杂度是O(N log N)，因为每个元素进出堆一次。但我们可以用单调队列优化到O(N)。单调队列的核心是，队列中的元素值从队首到队尾是单调递减的（对于求最大值问题）。

// 技术栈：Java (单调队列解法)
import java.util.Deque;
import java.util.LinkedList;

public class SlidingWindowMax {
    /**
     * 使用单调队列解决滑动窗口最大值问题（更优解法）
     * @param nums 输入数组
     * @param k 窗口大小
     * @return 每个窗口最大值的数组
     */
    public static int[] maxSlidingWindowWithDeque(int[] nums, int k) {
        if (nums == null || nums.length == 0 || k <= 0) {
            return new int[0];
        }
        int n = nums.length;
        int[] result = new int[n - k + 1];
        int resIndex = 0;
        // 双端队列，存储元素的索引。队列对应元素的值从队首到队尾单调递减。
        Deque<Integer> deque = new LinkedList<>();

        for (int i = 0; i < n; i++) {
            // 1. 维护单调性：从队尾开始，如果当前元素 >= 队尾索引对应的元素，则队尾不可能成为窗口最大值，弹出队尾
            while (!deque.isEmpty() && nums[i] >= nums[deque.peekLast()]) {
                deque.pollLast();
            }
            // 2. 将当前元素索引加入队尾
            deque.offerLast(i);

            // 3. 移除超出窗口范围的队首元素（窗口左边界是 i-k+1）
            if (deque.peekFirst() < i - k + 1) {
                deque.pollFirst();
            }

            // 4. 当窗口形成后，队首元素就是当前窗口最大值的索引
            if (i >= k - 1) {
                result[resIndex++] = nums[deque.peekFirst()];
            }
        }
        return result;
    }
    // main方法同上，输出结果相同
}

优缺点与注意：

堆解法：
- 优点：思路直观，利用了我们熟悉的堆结构。
- 缺点：时间复杂度O(N log N)不如单调队列，且需要存储索引来实现懒删除。
单调队列解法：
- 优点：时间复杂度为完美的O(N)，每个元素入队出队一次。
- 缺点：概念上比堆更难理解一些，需要维护队列的单调性。
注意：在面试中，如果被问到滑动窗口最大值，可以先给出堆解法，然后主动提出可以用单调队列进行优化，并阐述其思想，这往往会是一个加分项。

五、总结与应用思考

通过上面三个问题的探讨，我们可以看到“堆”这种数据结构在处理与极值和动态排序相关的问题时，有多么强大的威力。

应用场景回顾：

TopK问题：适用于从海量静态或可遍历数据中快速找出排名前K或后K的元素，如热门排行榜、异常值检测。
数据流中位数：专为动态、持续到达的数据设计，需要实时统计中位数这类中心趋势指标的场景，如性能监控、实时定价。
滑动窗口最大值：处理数组/序列上固定区间滑动的极值问题，如时间序列分析、信号处理、网络流量控制。虽然最优解是单调队列，但堆提供了另一种理解角度。

技术选择与权衡：

选择堆：当问题核心是频繁插入和获取极值，且数据动态变化时，堆（优先队列）通常是首选。Java中的PriorityQueue，C++中的priority_queue，Python中的heapq都是现成的工具。
注意复杂度：堆的插入和删除操作时间复杂度是O(log N)。对于TopK，总复杂度是O(N log K)；对于数据流中位数，插入是O(log N)，查询是O(1)。要能清晰分析出这些复杂度。
理解变体：最小堆和最大堆要灵活运用。TopK最大用最小堆，TopK最小用最大堆。数据流中位数则需要两者配合。
知晓优化：像滑动窗口最大值问题，要明白堆解法不是最优，单调队列在时间和空间上更优。这体现了对问题深入理解和掌握多种工具的重要性。

给面试者的建议：遇到这类题目，不要急于编码。先和面试官澄清问题细节（数据规模、是否静态、K的大小等），然后阐述你的核心思路（为什么用堆），分析时间空间复杂度，最后再写代码。如果知道更优解（如单调队列），可以在最后提出来进行对比，展示你的知识广度。

总而言之，“堆”就像算法世界里的一个智能过滤器或平衡器。它不一定能给出完全排序的结果，但在需要快速获取极值或维护某种动态有序状态的场景下，它高效而优雅。掌握好堆的原理和这三个经典问题的解法，无疑能为你的技术面试增添一份坚实的底气。

敲码拾光专注于编程技术，涵盖编程语言、代码实战案例、软件开发技巧、IT前沿技术、编程开发工具，是您提升技术能力的优质网络平台。

堆的面试题：TopK问题、数据流中的中位数、滑动窗口最大值

一、引言：当“堆”不再是杂物堆

二、问题一：TopK问题——大海捞针，只捞最大的那几根

三、问题二：数据流中的中位数——动态平衡的艺术

四、问题三：滑动窗口最大值——请出“单调队列”这位帮手

五、总结与应用思考

评论

关联文章

敲码拾光专注于编程技术，涵盖编程语言、代码实战案例、软件开发技巧、IT前沿技术、编程开发工具，是您提升技术能力的优质网络平台。

一、 引言：当“堆”不再是杂物堆

二、 问题一：TopK问题——大海捞针，只捞最大的那几根

三、 问题二：数据流中的中位数——动态平衡的艺术

四、 问题三：滑动窗口最大值——请出“单调队列”这位帮手

五、 总结与应用思考

评论

关联文章

一、引言：当“堆”不再是杂物堆

二、问题一：TopK问题——大海捞针，只捞最大的那几根

三、问题二：数据流中的中位数——动态平衡的艺术

四、问题三：滑动窗口最大值——请出“单调队列”这位帮手

五、总结与应用思考