本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
的数据格式 AWS Clean Rooms
要查询数据,数据集必须采用 AWS Clean Rooms 支持的格式。包含数据集的 Amazon S3 存储桶和集 AWS Clean Rooms 群必须位于同一存储桶中 AWS 区域。
支持的数据格式
AWS Clean Rooms 支持以下结构化格式:
-
Parquet
-
RCFile
-
TextFile
-
SequenceFile
-
RegexSerde
-
OpenCSV
-
AVRO
-
JSON
注意
文本文件中的 timestamp
值必须采用 yyyy-MM-dd
HH:mm:ss.SSSSSS
格式。例如:2017-05-01 11:30:59.000000
。
我们建议使用列式存储文件格式(例如 Apache Parquet)。利用列式存储文件格式,您可以通过仅选择所需的列来最大程度地减少 Amazon S3 外部的数据传输。为了获得最佳性能,应将大型对象拆分为 100 MB - 1 GB 的对象。
支持的数据类型
为了获得最佳的使用体验 AWS Clean Rooms,必须将您的所有数据编入其中。 AWS Glue有关更多信息,请参阅《AWS Glue 开发人员指南》中的 AWS Glue Data Catalog入门。
AWS Clean Rooms 支持以下 AWS Glue Data Catalog 数据类型:
-
bigint
-
boolean
-
char
-
date
-
decimal
-
double
-
float
-
int
-
嵌套数据类型,例如:
-
array
-
map
-
struct
-
-
smallint
-
string
-
timestamp
-
varchar
AWS Clean Rooms 不支持:
-
binary
-
interval
的文件压缩类型 AWS Clean Rooms
要减少存储空间、提高性能和最大程度地降低成本,我们强烈建议您压缩数据集。
AWS Clean Rooms 根据文件扩展名识别文件压缩类型,并支持下表所示的压缩类型和扩展名。
压缩算法 | 文件扩展名 |
---|---|
GZIP | .gz |
Bzip2 | .bz2 |
Snappy | .snappy |
可以在不同的级别应用压缩。最常见的情况是,压缩整个文件或压缩文件中的单个块。在文件级压缩列格式不会产生性能优势。
服务器端加密 AWS Clean Rooms
注意
对于需要加密计算的使用案例,服务器端加密并不能取代加密计算。
AWS Clean Rooms 透明地解密使用以下加密选项加密的数据集:
-
SSE-S3 — 使用由 Amazon S3 管理的 AES -256 加密密钥进行服务器端加密
-
SSE-KMS — 使用由管理的密钥进行服务器端加密 AWS Key Management Service
要使用 SSE-S3,用于将配置的表与协作关联的 AWS Clean Rooms 服务角色必须具有 KMS-decrypt 权限。要使用 SSE-KMS,KMS密钥策略还必须允许 AWS Clean Rooms 服务角色解密。
AWS Clean Rooms 不支持 Amazon S3 客户端加密。有关服务器端加密的更多信息,请参阅《Amazon Simple Storage Service 用户指南》中的使用服务器端加密保护数据。