Consideraciones y limitaciones al utilizar el conector de Spark
El conector Spark admite diversas formas de administrar las credenciales, configurar la seguridad y conectarse con otros servicios AWS. Familiarícese con las recomendaciones de esta lista para configurar una conexión funcional y resiliente
-
Recomendamos activar SSL para la conexión JDBC desde Spark en Amazon EMR a Amazon Redshift.
-
Le recomendamos que administre las credenciales del clúster de Amazon Redshift en AWS Secrets Manager como práctica recomendada. Consulte un ejemplo en Uso de AWS Secrets Manager para recuperar credenciales para una conexión a Amazon Redshift.
-
Le recomendamos que pase un rol de IAM con el parámetro
aws_iam_role
para el parámetro de autenticación de Amazon Redshift. -
Actualmente, el parámetro
tempformat
no admite el formato Parquet. -
El URI
tempdir
apunta a una ubicación de Amazon S3. Este directorio temporal no se limpia automáticamente y, por lo tanto, podría agregar costos adicionales. -
Tenga en cuenta las siguientes recomendaciones para Amazon Redshift:
-
Le recomendamos que bloquee el acceso público al clúster de Amazon Redshift.
-
Le recomendamos que active el registro de auditoría de Amazon Redshift.
-
Recomendamos activar el cifrado en reposo de Amazon Redshift.
-
-
Tenga en cuenta las siguientes recomendaciones para Amazon S3:
-
Recomendamos bloquear el acceso público a los buckets de Amazon S3.
-
Recomendamos utilizar el cifrado del servidor de Amazon S3 para cifrar los buckets de Amazon S3 que utilice.
-
Recomendamos utilizar las políticas de ciclo de vida de Amazon S3 para definir las reglas de retención del bucket de S3.
-
Amazon EMR siempre verifica el código importado desde el código abierto a la imagen. Por motivos de seguridad, no admitimos la codificación de claves de acceso de AWS en el URI
tempdir
como método de autenticación de Spark a Amazon S3.
-
Para obtener más información sobre el uso del conector y sus parámetros compatibles, consulte los siguientes recursos:
-
Integración de Amazon Redshift para Apache Spark en la Guía de administración de Amazon Redshift