的数据格式 AWS Clean Rooms - AWS Clean Rooms

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

的数据格式 AWS Clean Rooms

要查询数据,数据集必须采用 AWS Clean Rooms 支持的格式。包含数据集的 Amazon S3 存储桶和集 AWS Clean Rooms 群必须位于同一存储桶中 AWS 区域。

支持的数据格式

AWS Clean Rooms 支持以下结构化格式:

注意

文本文件中的 timestamp 值必须采用 yyyy-MM-dd HH:mm:ss.SSSSSS 格式。例如:2017-05-01 11:30:59.000000

我们建议使用列式存储文件格式(例如 Apache Parquet)。利用列式存储文件格式,您可以通过仅选择所需的列来最大程度地减少 Amazon S3 外部的数据传输。为了获得最佳性能,应将大型对象拆分为 100 MB - 1 GB 的对象。

支持的数据类型

为了获得最佳的使用体验 AWS Clean Rooms,必须将您的所有数据编入其中。 AWS Glue有关更多信息,请参阅《AWS Glue 开发人员指南》中的 AWS Glue Data Catalog入门

AWS Clean Rooms 支持以下 AWS Glue Data Catalog 数据类型:

  • bigint

  • boolean

  • char

  • date

  • decimal

  • double

  • float

  • int

  • 嵌套数据类型,例如:

    • array

    • map

    • struct

  • smallint

  • string

  • timestamp

  • varchar

AWS Clean Rooms 不支持:

  • binary

  • interval

的文件压缩类型 AWS Clean Rooms

要减少存储空间、提高性能和最大程度地降低成本,我们强烈建议您压缩数据集。

AWS Clean Rooms 根据文件扩展名识别文件压缩类型,并支持下表所示的压缩类型和扩展名。

压缩算法 文件扩展名
GZIP .gz
Bzip2 .bz2
Snappy .snappy

可以在不同的级别应用压缩。最常见的情况是,压缩整个文件或压缩文件中的单个块。在文件级压缩列格式不会产生性能优势。

服务器端加密 AWS Clean Rooms

注意

对于需要加密计算的使用案例,服务器端加密并不能取代加密计算。

AWS Clean Rooms 透明地解密使用以下加密选项加密的数据集:

  • SSE-S3 — 使用由 Amazon S3 管理的 AES -256 加密密钥进行服务器端加密

  • SSE-KMS — 使用由管理的密钥进行服务器端加密 AWS Key Management Service

要使用 SSE-S3,用于将配置的表与协作关联的 AWS Clean Rooms 服务角色必须具有 KMS-decrypt 权限。要使用 SSE-KMS,KMS密钥策略还必须允许 AWS Clean Rooms 服务角色解密。

AWS Clean Rooms 不支持 Amazon S3 客户端加密。有关服务器端加密的更多信息,请参阅《Amazon Simple Storage Service 用户指南》中的使用服务器端加密保护数据