Formats de données pour AWS Clean Rooms - AWS Clean Rooms

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Formats de données pour AWS Clean Rooms

Pour interroger des données, les ensembles de données doivent être dans un format AWS Clean Rooms compatible. Le compartiment Amazon S3 contenant les ensembles de données et le AWS Clean Rooms cluster doivent se trouver dans le même Région AWS compartiment.

Formats de données pris en charge

AWS Clean Rooms prend en charge les formats structurés suivants :

Note

timestampLa valeur d'un fichier texte doit être au formatyyyy-MM-dd HH:mm:ss.SSSSSS. Par exemple :2017-05-01 11:30:59.000000.

Nous vous recommandons d'utiliser un format de fichier de stockage en colonnes, tel queApache Parquet. Avec un format de fichier de stockage en colonnes, vous pouvez minimiser le transfert de données hors d’Amazon S3 en ne sélectionnant que les colonnes dont vous avez besoin. Pour des performances optimales, les objets volumineux doivent être divisés en objets de 100 Mo à 1 Go.

Types de données pris en charge

Pour une expérience optimale AWS Clean Rooms, toutes vos données doivent être cataloguées. AWS Glue Pour plus d'informations, consultez la section intitulée Getting started with the AWS Glue Data Catalog dans le manuel du AWS Glue développeur.

AWS Clean Rooms prend en charge les types AWS Glue Data Catalog de données suivants :

  • bigint

  • boolean

  • char

  • date

  • decimal

  • double

  • float

  • int

  • Types de données imbriqués tels que :

    • array

    • map

    • struct

  • smallint

  • string

  • timestamp

  • varchar

AWS Clean Rooms ne prend pas en charge :

  • binary

  • interval

Types de compression de fichiers pour AWS Clean Rooms

Pour réduire l'espace de stockage, améliorer les performances et minimiser les coûts, nous vous recommandons vivement de compresser vos ensembles de données.

AWS Clean Rooms reconnaît les types de compression de fichiers en fonction de leur extension et prend en charge les types de compression et les extensions indiqués dans le tableau suivant.

Algorithme de compression Extension de fichier
GZIP .gz
Bzip2 .bz2
Snappy .snappy

Vous pouvez appliquer la compression à différents niveaux. Le plus souvent, vous compressez un fichier entier ou des blocs individuels dans un fichier. La compression des formats en colonnes au niveau du fichier n'apporte aucun avantage en termes de performances.

Chiffrement côté serveur pour AWS Clean Rooms

Note

Le chiffrement côté serveur ne remplace pas le calcul cryptographique dans les cas d'utilisation qui l'exigent.

AWS Clean Rooms déchiffre de manière transparente les ensembles de données chiffrés à l'aide des options de chiffrement suivantes :

  • SSE-S3 — Chiffrement côté serveur à l'aide d'une clé de chiffrement AES -256 gérée par Amazon S3

  • SSE- KMS — Chiffrement côté serveur avec des clés gérées par AWS Key Management Service

Pour utiliser SSE -S3, le rôle de AWS Clean Rooms service utilisé pour associer la table configurée à la collaboration doit disposer des autorisations KMS -decrypt. Pour utiliser SSE -KMS, la politique de KMS clé doit également autoriser le rôle AWS Clean Rooms de service à déchiffrer.

AWS Clean Rooms ne prend pas en charge le chiffrement côté client Amazon S3. Pour plus d'informations sur le chiffrement côté serveur, consultez la section Protection des données à l'aide du chiffrement côté serveur dans le guide de l'utilisateur d'Amazon Simple Storage Service.