1. 首页
  2. 数据库
  3. 其它
  4. Parquet格式:Apache Parquet 源码

Parquet格式:Apache Parquet 源码

上传者: 2021-02-22 00:01:33上传 ZIP文件 560.19KB 热度 37次
木地板 Parquet是一种支持嵌套数据的列式存储格式。 实木复合地板元数据使用Apache Thrift进行编码。 Parquet-format项目包含所有Thrift定义,这些定义对于创建Parquet文件的读取器和写入器是必需的。 动机 我们创建Parquet是为了使Hadoop生态系统中的任何项目都可以使用压缩的,高效的列式数据表示形式。 Parquet是从头开始构建的,考虑到了复杂的嵌套数据结构,并使用了Dremel论文中描述的。 我们相信这种方法优于嵌套名称空间的简单扁平化。 Parquet构建为支持非常有效的压缩和编码方案。 多个项目已经证明了对数据应用正确的压缩和编码
用户评论