Apache Spark

2026

07

4月

大数据压缩技术详解：节省存储空间与提升IO性能

2026-04-07 Li Wei 1,087 次阅读

本文深入浅出地详解大数据压缩技术，阐述其如何有效节省存储成本并提升IO性能。文章通过Hadoop/Spark生态中的实际示例，对比不同压缩算法特点，介绍列式存储Parquet与压缩的搭配优势，并分析应用场景、技术选型考量及注意事项，帮助开发者轻松掌握这一关键优化技能。

big data Data Compression Storage Optimization data engineering Apache Spark

2026

28

2月

大数据

Hadoop数据预处理流程优化与ETL效率提升

2026-02-28 Zhou Ying 1,176 次阅读

本文深入探讨了基于Hadoop生态，特别是使用Apache Spark技术栈进行数据预处理与ETL流程优化的核心策略。文章详细分析了典型性能瓶颈，并通过合并小文件、使用Parquet列存、广播Join、数据倾斜加盐处理、资源配置调优等具体示例，手把手教你提升数据处理效率。涵盖了应用场景、技术优缺点及关键注意事项，适合大数据开发与运维工程师阅读实践。

ETL Performance Tuning big data data engineering Apache Spark

2026

27

2月

大数据

本文深入探讨Apache Spark分布式计算引擎的内存管理机制，详细解析Execution、Storage、User内存区域的作用与冲突。通过丰富的实战代码示例，系统介绍避免OOM的核心配置参数（如executor-memory, shuffle.partitions）与调优技巧，包括广播Join、处理数据倾斜、调整内存比例等。涵盖流处理关联场景，并分析调优的应用场景、优缺点及关键注意事项，助力开发者构建稳定高效的大数据处理作业。

distributed systems Performance Tuning Memory Management big data Apache Spark

敲码拾光专注于编程技术，涵盖编程语言、代码实战案例、软件开发技巧、IT前沿技术、编程开发工具，是您提升技术能力的优质网络平台。

大数据压缩技术详解：节省存储空间与提升IO性能

Hadoop数据预处理流程优化与ETL效率提升

分布式计算引擎内存管理：避免OOM的配置与调优技巧