Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Formatos de datos para AWS Clean Rooms
Para consultar datos, los conjuntos de datos deben estar en un formato AWS Clean Rooms compatible. El bucket de Amazon S3 con los conjuntos de datos y el AWS Clean Rooms clúster deben estar en el mismo Región de AWS lugar.
Formatos de datos admitidos
AWS Clean Rooms admite los siguientes formatos estructurados:
-
Parquet
-
RCFile
-
TextFile
-
SequenceFile
-
RegexSerde
-
OpenCSV
-
AVRO
-
JSON
nota
Un valor timestamp
de un archivo de texto debe estar en formato yyyy-MM-dd
HH:mm:ss.SSSSSS
. Por ejemplo: 2017-05-01 11:30:59.000000
.
Recomendamos utilizar un formato de archivo de almacenamiento en columnas, como Apache Parquet. Un formato de archivo de almacenamiento en columnas le permite minimizar la transferencia de datos desde Amazon S3 seleccionando únicamente las columnas que necesite. Para obtener un rendimiento óptimo, los objetos grandes deben dividirse en objetos de 100 MB a 1 GB.
Tipos de datos compatibles
Para disfrutar de una experiencia óptima AWS Clean Rooms, todos sus datos deben estar catalogados en AWS Glue. Para obtener más información, consulte la sección titulada Introducción a AWS Glue Data Catalog en la Guía del desarrollador de AWS Glue .
AWS Clean Rooms admite los siguientes tipos AWS Glue Data Catalog de datos:
-
bigint
-
boolean
-
char
-
date
-
decimal
-
double
-
float
-
int
-
Tipos de datos anidados, como:
-
array
-
map
-
struct
-
-
smallint
-
string
-
timestamp
-
varchar
AWS Clean Rooms no admite:
-
binario
-
intervalo
Tipos de compresión de archivos para AWS Clean Rooms
Para reducir el espacio de almacenamiento, mejorar el rendimiento y minimizar costos, es muy recomendable comprimir los archivos de datos.
AWS Clean Rooms reconoce los tipos de compresión de archivos en función de la extensión del archivo y admite los tipos y extensiones de compresión que se muestran en la tabla siguiente.
Algoritmo de compresión | Extensión de archivo |
---|---|
GZIP | .gz |
Bzip2 | .bz2 |
Snappy | .snappy |
Puede aplicar compresión a distintos niveles. En la mayoría de los casos, se comprime un archivo completo o se comprimen bloques individuales dentro de un archivo. La compresión de formatos de columna por archivo no ofrece beneficios en términos de rendimiento.
Cifrado del lado del servidor para AWS Clean Rooms
nota
El cifrado en el servidor no reemplaza a la computación criptográfica en los casos de uso en los que esta última es obligatoria.
AWS Clean Rooms descifra de forma transparente los conjuntos de datos cifrados mediante las siguientes opciones de cifrado:
-
SSE-S3: cifrado del lado del servidor mediante una clave de cifrado AES -256 gestionada por Amazon S3
-
SSE- KMS — Cifrado del lado del servidor con claves administradas por AWS Key Management Service
Para usar SSE -S3, el rol de AWS Clean Rooms servicio utilizado para asociar la tabla configurada a la colaboración debe tener KMS permisos -decrypt. Para usar SSE -KMS, la política de KMS claves también debe permitir que la función de AWS Clean Rooms servicio descifre.
AWS Clean Rooms no admite el cifrado del lado del cliente de Amazon S3. Para obtener más información sobre el cifrado en el servidor, consulte Protección de datos con el cifrado del lado del servidor en la Guía del usuario de Amazon Simple Storage Service.