大数据中常见的数据存储格式和压缩方式

zjk 发布于 2024-03-08 132 次阅读


文件存储格式:

  1. 文本文件格式(TextFile):简单易用,通用性强,但不具备高效的压缩和查询性能。
  2. 序列文件格式(SequenceFile):适合用于复杂数据结构的持久化,但不提供高级压缩。
  3. 列式存储文件格式(如RCFile、ORCFile、Parquet):提供了更好的压缩比和查询性能,适合于分析型工作负载,Parquet在数据仓库和数据湖中具有广泛应用。
  4. Avro:基于JSON的数据序列化格式,适合用于大数据存储和交换,支持动态模式演化。
  5. JSON文件格式:以JSON格式存储的文件,适合存储半结构化数据,易于人类阅读和理解。
  6. Delta Lake:具有事务性、版本控制和可伸缩性等特性,适用于数据湖中的大规模数据存储。

压缩方式:

  1. Gzip:提供较高的压缩比,但对CPU的消耗较大。
  2. Snappy:提供快速的压缩/解压缩速度,适合对性能有要求的场景。
  3. LZO:同样提供快速的压缩/解压缩速度,常用于Hadoop集群中的数据压缩。
  4. Bzip2:针对文本数据具有高压缩比,但相对较慢。
  5. Deflate:在ZIP文件格式中使用,提供较高的压缩比。
  6. LZ4:快速压缩算法,适合对速度和资源消耗有要求的场景。
  7. Zstandard (Zstd):提供高压缩比和快速压缩/解压缩速度,适用于各种场景。