快速选择算法精解：在未排序数组中快速找到第K大元素

Zhao Hua 2026-04-01 11:16

一、为什么需要快速选择算法

假设你面前摆着一堆杂乱无章的扑克牌，现在要找出其中第5大的牌。最直接的方法是先全部排序，然后直接取第5张——但排序整个牌堆显然有点浪费，因为我们只关心第5张的位置。类似地，在编程中处理大规模数据时，快速选择算法就是用来解决这类问题的利器。

它的核心思想来源于快速排序，但比完整排序更高效。平均时间复杂度是O(n)，最坏情况下是O(n²)，但通过优化可以避免最坏情况。

二、快速选择算法的工作原理

快速选择算法的步骤如下：

随机选取一个基准值（pivot）：从数组里随便挑一个数作为分界点。
分区（partition）：把比基准值小的放左边，大的放右边。
判断目标位置：如果基准值的位置正好是第K大元素的位置，直接返回；否则，只在左边或右边继续查找。

示例演示（技术栈：Python）

def quick_select(nums, k):
    # 为了方便理解，这里k传入的是"第k大"的原始值（例如k=1表示最大）
    # 实际处理时会转换为数组索引对应的形式
    def partition(left, right, pivot_idx):
        pivot = nums[pivot_idx]
        # 把基准值交换到最右端
        nums[pivot_idx], nums[right] = nums[right], nums[pivot_idx]
        store_idx = left
        for i in range(left, right):
            if nums[i] < pivot:
                nums[store_idx], nums[i] = nums[i], nums[store_idx]
                store_idx += 1
        # 把基准值放回正确位置
        nums[right], nums[store_idx] = nums[store_idx], nums[right]
        return store_idx

    def select(left, right, k_smallest):
        if left == right:
            return nums[left]
        # 随机选择基准值（避免最坏情况）
        pivot_idx = random.randint(left, right)
        # 分区并获取基准值的位置
        true_idx = partition(left, right, pivot_idx)
        if k_smallest == true_idx:
            return nums[k_smallest]
        elif k_smallest < true_idx:
            return select(left, true_idx - 1, k_smallest)
        else:
            return select(true_idx + 1, right, k_smallest)

    # 第k大 = 第(n-k)小（数组索引从0开始）
    return select(0, len(nums) - 1, len(nums) - k)

# 测试示例
import random
arr = [3, 2, 1, 5, 6, 4]
k = 2  # 找第2大的元素
print(quick_select(arr, k))  # 输出应为5

注释说明：

partition函数负责将数组分成两部分。
select函数通过递归缩小搜索范围。
随机选择pivot_idx避免最坏情况（例如数组已排序时选到最差基准）。

三、关键优化与注意事项

优化1：随机化基准值

如果每次选的基准值恰好是最小或最大值，会导致分区效率退化到O(n²)。通过随机选择，可以大幅降低这种概率。

优化2：中位数的中位数（BFPRT算法）

更高级的优化是取“中位数的中位数”作为基准值，能将最坏时间复杂度严格控制在O(n)，但实现较复杂，日常使用随机化即可。

注意事项

重复元素：如果数组有大量重复值，可能影响分区效率，可考虑三向分区（Dutch National Flag问题）。
K的合法性：需检查k是否在有效范围内（比如k > len(nums)时直接报错）。

四、应用场景与技术对比

适用场景

海量数据中找Top K（如排行榜前10）。
数据流处理（结合堆结构）。
统计学中位数计算。

与其他算法对比

算法	平均时间复杂度	缺点
快速选择	O(n)	最坏情况O(n²)
堆排序	O(n log k)	需要额外空间
完整排序	O(n log n)	完全排序，浪费算力

五、完整示例与边界测试

示例：包含重复元素的数组

arr = [3, 2, 3, 1, 2, 4, 5, 5, 6]
k = 4  # 第4大的元素是4
print(quick_select(arr, k))  # 输出应为4

边界测试

空数组：应返回错误。
K=1或K=len(nums)：即找最大值或最小值。

六、总结

快速选择算法用“分区+递归”的思路，巧妙避免了全局排序。虽然存在理论上的最坏情况，但实际应用中通过随机化能高效解决问题。下次遇到“找第K大”这类需求时，不妨优先考虑它！

敲码拾光专注于编程技术，涵盖编程语言、代码实战案例、软件开发技巧、IT前沿技术、编程开发工具，是您提升技术能力的优质网络平台。