Considérations et limites relatives à l'utilisation du connecteur Spark

Le connecteur Spark permet de gérer les informations d'identification de différentes manières, de configurer la sécurité et de se connecter à d'autres AWS services. Familiarisez-vous avec les recommandations de cette liste afin de configurer une connexion fonctionnelle et résiliente.

Nous vous recommandons d'activer SSL pour la connexion JDBC entre Spark sur Amazon EMR et Amazon Redshift.
À titre de bonne pratique, nous vous recommandons de gérer les informations d'identification du cluster Amazon Redshift dans AWS Secrets Manager . Voir Utiliser AWS Secrets Manager pour récupérer les informations d'identification pour se connecter à Amazon Redshift pour un exemple.
Nous vous recommandons de transmettre un rôle IAM à l'aide du paramètre aws_iam_role pour le paramètre d'authentification Amazon Redshift.
Le paramètre tempformat ne prend actuellement pas en charge le format Parquet.
L'URI tempdir renvoie à un emplacement Amazon S3. Ce répertoire temporaire n'est pas nettoyé automatiquement et peut donc entraîner des coûts supplémentaires.
Tenez compte des recommandations suivantes pour Amazon Redshift :
- Nous vous recommandons de bloquer l'accès public au cluster Amazon Redshift.
- Nous vous recommandons d'activer la journalisation des audits d'Amazon Redshift.
- Nous vous recommandons d'activer le chiffrement au repos d'Amazon Redshift.
Tenez compte des recommandations suivantes pour Amazon S3 :
- Nous vous recommandons de bloquer l'accès public aux compartiments Amazon S3.
- Nous vous recommandons d'utiliser le chiffrement côté serveur sur Amazon S3 pour chiffrer les compartiments Amazon S3 utilisés.
- Nous vous recommandons d'utiliser les politiques de cycle de vie d'Amazon S3 pour définir les règles de conservation du compartiment Amazon S3.
- Amazon EMR vérifie toujours le code importé à partir d'une source ouverte dans l'image. Pour des raisons de sécurité, nous ne prenons pas en charge le codage des clés d' AWS accès dans l'tempdirURI comme méthode d'authentification entre Spark et Amazon S3.

Pour plus d'informations sur l'utilisation du connecteur et les paramètres qu'il prend en charge, consultez les ressources suivantes :

Intégration d'Amazon Redshift pour Apache Spark dans le Guide de gestion Amazon Redshift
Le référentiel communautaire spark-redshift sur Github

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Lecture et écriture vers Amazon Redshift

Utilisation de Volcano