文件存储格式:
- 文本文件格式(TextFile):简单易用,通用性强,但不具备高效的压缩和查询性能。
- 序列文件格式(SequenceFile):适合用于复杂数据结构的持久化,但不提供高级压缩。
- 列式存储文件格式(如RCFile、ORCFile、Parquet):提供了更好的压缩比和查询性能,适合于分析型工作负载,Parquet在数据仓库和数据湖中具有广泛应用。
- Avro:基于JSON的数据序列化格式,适合用于大数据存储和交换,支持动态模式演化。
- JSON文件格式:以JSON格式存储的文件,适合存储半结构化数据,易于人类阅读和理解。
- Delta Lake:具有事务性、版本控制和可伸缩性等特性,适用于数据湖中的大规模数据存储。
压缩方式:
- Gzip:提供较高的压缩比,但对CPU的消耗较大。
- Snappy:提供快速的压缩/解压缩速度,适合对性能有要求的场景。
- LZO:同样提供快速的压缩/解压缩速度,常用于Hadoop集群中的数据压缩。
- Bzip2:针对文本数据具有高压缩比,但相对较慢。
- Deflate:在ZIP文件格式中使用,提供较高的压缩比。
- LZ4:快速压缩算法,适合对速度和资源消耗有要求的场景。
- Zstandard (Zstd):提供高压缩比和快速压缩/解压缩速度,适用于各种场景。
Comments NOTHING