如何将数据追加到现有 Parquet 文件

2022-09-02 01:51:11

我使用以下代码来创建 ParquetWriter 并向其写入记录。

ParquetWriter<GenericRecord> parquetWriter = new ParquetWriter(path, writeSupport, CompressionCodecName.SNAPPY, BLOCK_SIZE, PAGE_SIZE);

final GenericRecord record = new GenericData.Record(avroSchema);

parquetWriter.write(record);

但它只允许创建新文件(在指定的路径上)。有没有办法将数据追加到现有的镶木地板文件(在路径处)?缓存 ParquetWriter 在我的情况下是不可行的。


答案 1

有一个名为append:https://spark.apache.org/docs/1.4.0/api/java/org/apache/spark/sql/SaveMode.html 的Spark API SaveMode,我相信它可以解决你的问题。

使用示例:

df.write.mode('append').parquet('parquet_data_file')

答案 2

Parquet 是一个列状文件,它优化了所有列的写入。如果进行任何编辑,则需要重写文件。

来自维基

面向列的数据库将一列的所有值序列化在一起,然后序列化下一列的值,依此类推。对于我们的示例表,数据将按以下方式存储:

10:001,12:002,11:003,22:004;
Smith:001,Jones:002,Johnson:003,Jones:004;
Joe:001,Mary:002,Cathy:003,Bob:004;
40000:001,50000:002,44000:003,55000:004;

一些链接

https://en.wikipedia.org/wiki/Column-oriented_DBMS

https://parquet.apache.org/


推荐