Protection des données - Amazon EMR

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Protection des données

Le modèle de responsabilité AWS partagée s'applique à la protection des données dans Amazon EMR Serverless. Comme décrit dans ce modèle, AWS est responsable de la protection de l'infrastructure mondiale qui gère l'ensemble du AWS cloud. La gestion du contrôle de votre contenu hébergé sur cette infrastructure relève de votre responsabilité. Ce contenu inclut la configuration de la sécurité et les tâches de gestion pour les AWS services que vous utilisez. Pour plus d'informations sur la confidentialité des données, consultez la section Confidentialité des données FAQ. Pour plus d'informations sur la protection des données en Europe, consultez le modèle de responsabilité AWS partagée et le billet de GDPR blog sur le blog sur la AWS sécurité.

Pour des raisons de protection des données, nous vous recommandons de protéger les informations d'identification des AWS comptes et de configurer des comptes individuels avec AWS Identity and Access Management (IAM). Ainsi, chaque utilisateur se voit attribuer uniquement les autorisations nécessaires pour exécuter ses tâches. Nous vous recommandons également de sécuriser vos données comme indiqué ci-dessous :

  • Utilisez l'authentification multifactorielle (MFA) pour chaque compte.

  • UtilisezSSL/TLSpour communiquer avec les AWS ressources. Nous recommandons la version TLS 1.2 ou une version ultérieure.

  • Configuration API et journalisation de l'activité des utilisateurs avec AWS CloudTrail.

  • Utilisez des solutions de AWS chiffrement, ainsi que tous les contrôles de sécurité par défaut au sein AWS des services.

  • Utilisez des services de sécurité gérés avancés tels qu’Amazon Macie, qui contribuent à la découverte et à la sécurisation des données personnelles stockées dans Amazon S3.

  • Utilisez les options de chiffrement Amazon EMR Serverless pour chiffrer les données au repos et en transit.

  • Si vous avez besoin de FIPS 140 à 2 modules cryptographiques validés pour accéder AWS via une interface de ligne de commande ou unAPI, utilisez un point de terminaison. FIPS Pour plus d'informations sur les FIPS points de terminaison disponibles, voir Federal Information Processing Standard (FIPS) 140-2.

Nous vous recommandons vivement de ne jamais placer d’informations identifiables sensibles, telles que les numéros de compte de vos clients, dans des champs de formulaire comme Nom. Cela inclut lorsque vous travaillez avec Amazon EMR Serverless ou d'autres AWS services à l'aide de la consoleAPI, AWS CLI, ou AWS SDKs. Toutes les données que vous entrez dans Amazon EMR Serverless ou dans d'autres services peuvent être récupérées pour être incluses dans les journaux de diagnostic. Lorsque vous fournissez un URL à un serveur externe, n'incluez pas d'informations d'identification dans le URL pour valider votre demande auprès de ce serveur.

Chiffrement au repos

Le chiffrement des données vous permet d'empêcher les utilisateurs non autorisés de lire les données d'un cluster et celles des systèmes de stockage de données associés. Cela inclut les données enregistrées sur les supports persistants (données au repos) et les données qui peuvent être interceptées alors qu'elles circulent sur le réseau (données en transit).

Le chiffrement des données nécessite des clés et des certificats. Vous pouvez choisir parmi plusieurs options, notamment les clés gérées par AWS Key Management Service, les clés gérées par Amazon S3 et les clés et certificats fournis par les fournisseurs personnalisés que vous fournissez. Lorsque vous l'utilisez en AWS KMS tant que fournisseur de clés, des frais s'appliquent pour le stockage et l'utilisation des clés de chiffrement. Pour en savoir plus, consultez Pricing AWS KMS (Tarification).

Avant d'indiquer les options de chiffrement, choisissez les systèmes de gestion des clés et des certificats que vous souhaitez utiliser. Créez ensuite les clés et les certificats pour les fournisseurs personnalisés que vous indiquez dans le cadre des paramètres de chiffrement.

Chiffrement au repos pour EMRFS les données dans Amazon S3

Chaque application EMR sans serveur utilise une version de version spécifique, qui inclut EMRFS (système de EMR fichiers). Le chiffrement Amazon S3 fonctionne avec les objets EMR File System (EMRFS) lus et écrits sur Amazon S3. Vous pouvez spécifier le chiffrement côté serveur (SSE) ou le chiffrement côté client () Amazon S3 comme mode de chiffrement par défaut lorsque vous activez le chiffrement au repos. CSE Le cas échéant, vous pouvez spécifier différentes méthodes de chiffrement pour les compartiments individuels à l'aide de remplacements de chiffrement par compartiment. Que le chiffrement Amazon S3 soit activé ou non, Transport Layer Security (TLS) chiffre les EMRFS objets en transit entre les nœuds EMR du cluster et Amazon S3. Si vous utilisez Amazon S3 CSE avec des clés gérées par le client, votre rôle d'exécution utilisé pour exécuter des tâches dans une application EMR sans serveur doit avoir accès à la clé. Pour obtenir des informations détaillées sur le chiffrement Amazon S3, consultez la section Protection des données à l'aide du chiffrement dans le manuel Amazon Simple Storage Service Developer Guide.

Note

Lorsque vous les utilisez AWS KMS, des frais s'appliquent pour le stockage et l'utilisation des clés de chiffrement. Pour en savoir plus, consultez Pricing AWS KMS (Tarification).

Chiffrement côté serveur sur Amazon S3

Lorsque vous configurez le chiffrement côté serveur sur Amazon S3, Amazon S3 chiffre les données au niveau de l'objet au moment où elles sont écrites sur le disque et déchiffre les données lorsqu'elles sont accédées. Pour plus d'informationsSSE, consultez la section Protection des données à l'aide du chiffrement côté serveur dans le manuel Amazon Simple Storage Service Developer Guide.

Vous pouvez choisir entre deux systèmes de gestion de clés différents lorsque vous le spécifiez SSE dans Amazon EMR Serverless :

  • SSE-S3 ‐ Amazon S3 gère les clés pour vous. Aucune configuration supplémentaire n'est requise sur EMR Serverless.

  • SSE- KMS ‐ Vous utilisez un AWS KMS key pour configurer des politiques adaptées à EMR Serverless. Aucune configuration supplémentaire n'est requise sur EMR Serverless.

Pour utiliser AWS KMS le chiffrement des données que vous écrivez sur Amazon S3, deux options s'offrent à vous lorsque vous utilisez le StartJobRunAPI. Vous pouvez soit activer le chiffrement pour tout ce que vous écrivez sur Amazon S3, soit activer le chiffrement pour les données que vous écrivez dans un compartiment spécifique. Pour plus d'informations sur le StartJobRunAPI, consultez le manuel EMRServerless API Reference.

Pour activer le AWS KMS chiffrement de toutes les données que vous écrivez sur Amazon S3, utilisez les commandes suivantes lorsque vous appelez le StartJobRunAPI.

--conf spark.hadoop.fs.s3.enableServerSideEncryption=true --conf spark.hadoop.fs.s3.serverSideEncryption.kms.keyId=<kms_id>

Pour activer le AWS KMS chiffrement des données que vous écrivez dans un compartiment spécifique, utilisez les commandes suivantes lorsque vous appelez le StartJobRunAPI.

--conf spark.hadoop.fs.s3.bucket.<amzn-s3-demo-bucket1>.enableServerSideEncryption=true --conf spark.hadoop.fs.s3.bucket.<amzn-s3-demo-bucket1>.serverSideEncryption.kms.keyId=<kms-id>

SSEavec des clés fournies par le client (SSE-C) n'est pas disponible pour une utilisation avec Serverless. EMR

Chiffrement côté client sur Amazon S3

Avec le chiffrement côté client d'Amazon S3, le chiffrement et le déchiffrement d'Amazon S3 ont lieu dans le EMRFS client disponible sur chaque version d'Amazon. EMR Les objets sont chiffrés avant d'être chargés sur Amazon S3 et déchiffrés après leur chargement. Le fournisseur que vous indiquez fournit la clé de chiffrement utilisée par le client. Le client peut utiliser les clés fournies par AWS KMS (CSE-KMS) ou une classe Java personnalisée qui fournit la clé racine côté client (CSE-C). Les spécificités du chiffrement sont légèrement différentes entre CSE - KMS et CSE -C, selon le fournisseur spécifié et les métadonnées de l'objet déchiffré ou chiffré. Si vous utilisez Amazon S3 CSE avec des clés gérées par le client, votre rôle d'exécution utilisé pour exécuter des tâches dans une application EMR sans serveur doit avoir accès à la clé. Des KMS frais supplémentaires peuvent s'appliquer. Pour plus d'informations sur ces différences, consultez la section Protection des données à l'aide du chiffrement côté client dans le manuel Amazon Simple Storage Service Developer Guide.

Chiffrement de disque local

Les données stockées dans un stockage éphémère sont cryptées à l'aide de clés appartenant au service à l'aide de l'algorithme cryptographique standard AES -256.

Gestion des clés

Vous pouvez configurer KMS pour faire pivoter automatiquement vos KMS touches. Ce système permet d'effectuer une rotation de vos clés une fois par an tout en conservant indéfiniment les anciennes clés, afin que vos données puissent toujours être déchiffrées. Pour plus d'informations, voir Rotation des clés principales du client.

Chiffrement en transit

Les fonctionnalités de chiffrement spécifiques aux applications suivantes sont disponibles avec Amazon EMR Serverless :

  • Spark

    • Par défaut, la communication entre les pilotes Spark et les exécuteurs est authentifiée et interne. RPCla communication entre les pilotes et les exécuteurs est cryptée.

  • Hive

    • La communication entre le métastore AWS Glue et les applications EMR Serverless s'effectue via. TLS

Vous ne devez autoriser que les connexions chiffrées via HTTPS (TLS) en utilisant la SecureTransport condition aws : des IAM politiques relatives aux compartiments Amazon S3.