2026 03 4月 算法与数据结构 2026/4/3 04:39:30 布隆过滤器原理及其在大数据去重中的应用 2026-04-03 Zhou Hua 914 次阅读 本文用通俗语言详解布隆过滤器工作原理,通过Python示例展示其实现,并重点剖析其在大数据去重、爬虫URL过滤、缓存穿透防护等场景的应用。深入探讨该技术的优缺点及使用注意事项,帮助开发者理解这一高效的概率型数据结构。 Python algorithm BigData Deduplication BloomFilter
2026 05 2月 大数据 2026/2/5 00:03:08 大数据去重技术深度解析:布隆过滤器在分布式环境的应用 2026-02-05 Wu Lei 1,706 次阅读 本文深入解析了大数据去重技术中布隆过滤器在分布式环境的应用。首先阐述了大数据去重的重要性,接着介绍了布隆过滤器的原理,通过Python示例详细展示其插入和判断操作。然后探讨了布隆过滤器在分布式爬虫和缓存系统中的应用,分析了其优缺点,如空间效率高但存在误判率等,还给出了使用时的注意事项。最后总结了布隆过滤器在大数据处理中的价值和应用要点。 big data Deduplication bloom filter Distributed Environment
2026 12 1月 Kafka 2026/1/12 00:38:05 消息队列消费端幂等性处理:基于消息 ID 去重与业务唯一键校验方案 2026-01-12 Wang Jun 525 次阅读 本文详细介绍了消息队列消费端幂等性处理的两种方案:基于消息 ID 去重与业务唯一键校验。首先阐述了应用场景,如电商系统订单处理和金融系统交易处理。接着分别介绍了两种方案的原理、示例代码(使用 Java、Redis 和 MySQL)、优缺点。还说明了两种方案结合使用的方法,并给出示例代码。最后强调了注意事项,如消息 ID 和业务唯一键的生成、并发处理和数据清理等,帮助开发者更好地解决消息重复消费问题。 Message Queue Idempotency Message ID Deduplication Business Key