如何将 Parquet 文件转换为 Delta 文件

我正在尝试将镶木地板文件转换为同一目录中的增量文件。

当我更改目录文件时,会创建文件,但是当我尝试在同一目录中创建增量文件时,它不起作用。

创建的日志仅包括提交。

{"commitInfo":{"timestamp":1639462569886,"userId":"1873721116118433","userName":"removed!!","operation":"WRITE","operationParameters":{"mode":"Append" ,"partitionBy":"["Buyer_Partner_Code"]"},"notebook":{"notebookId":"3864076797603349"},"clusterId":"0713-055328-sonar10","re​​adVersion":0,"isolationLevel": "SnapshotIsolation","isBlindAppend":true,"operationMetrics":{"numFiles":"0","numOutputBytes":"0","numOutputRows":"0"}}}

df1.write.format("delta").mode("append").save("/data/dbo/csm_currencyratetype/Buyer_Partner_Code=190935/")
stack overflow How to convert Parquet file to Delta file
原文答案

答案:

作者头像

Delta 使用您已经拥有的相同文件 .parquet,但首先您应该创建 delta 表以创建 delta 日志和元数据。创建后,您的目录将是一个增量表,您可以继续使用增量格式附加或更新数据。

import io.delta.tables._

// Convert unpartitioned Parquet table at path '<path-to-table>'
val deltaTable = DeltaTable.convertToDelta(spark, "parquet.`<path-to-table>`")

https://docs.delta.io/latest/delta-utility.html#convert-a-parquet-table-to-a-delta-table

作者头像

我会将您的 parquet 注册为表格(您可以尝试直接将其保存为 delta,如果您使用 parquet,则需要在第二步进行转换,请在此之前备份您的数据):

%sql
CREATE TABLE buyer USING [DELTA/PARQUET] OPTIONS (path
"/data/dbo/csm_currencyratetype/Buyer_Partner_Code=190935/");

而不是使用简单的sql转换:

%sql
CONVERT TO DELTA buyer;

Buyer_Partner_Code 看起来像分区号,所以我认为表的路径应该是“/data/dbo/csm_currencyratetype/”

作者头像

要回答这个问题,我们可以先了解 Databricks 中的 delta 格式文件。这样我们就可以清楚地理解为什么会出现这个问题。

当用户创建 Delta Lake 表时,该表的事务日志会自动在 _delta_log 子目录中创建。当他或她对该表进行更改时,这些更改将作为有序的原子提交记录在事务日志中。每个提交都写成一个 JSON 文件,以 000000.json 开头。对表的其他更改会按数字升序生成后续 JSON 文件,以便下一次提交写出为 000001.json ,以下为 000002.json ,依此类推。

在这种情况下,当您在同一目录中回写时,Parquet 和 delta 都会发生冲突。因此,您可以将其写入不在同一目录中的另一个目录中。