Considerações e limitações ao usar o conector do Spark
-
Recomendamos que você ative o SSL para a conexão JDBC do Spark no Amazon EMR ao Amazon Redshift.
-
Recomendamos que você gerencie as credenciais do cluster do Amazon Redshift no AWS Secrets Manager como uma prática recomendada. Consulte Using AWS Secrets Manager to retrieve credentials for connecting to Amazon Redshift para obter um exemplo.
-
Recomendamos que você transmita um perfil do IAM com o parâmetro
aws_iam_role
para o parâmetro de autenticação do Amazon Redshift. -
No momento, o parâmetro
tempformat
não é compatível com o formato Parquet. -
O URI
tempdir
aponta para um local do Amazon S3. Esse diretório temporário não é limpo automaticamente e, portanto, pode incorrer em custos adicionais. -
Considere as seguintes recomendações para o Amazon Redshift:
-
Recomendamos bloquear o acesso público ao cluster do Amazon Redshift.
-
Recomendamos ativar o registro em log de auditoria do Amazon Redshift.
-
Recomendamos que você ative a Criptografia em repouso do Amazon Redshift.
-
-
Considere as seguintes recomendações para o Amazon S3:
-
Recomendamos que você bloqueie o acesso público aos buckets do Amazon S3.
-
Recomendamos que você use criptografia no lado do servidor do Amazon S3 para criptografar os buckets do Amazon S3 usados.
-
Recomendamos que você use as políticas de ciclo de vida do Amazon S3 para definir as regras de retenção para o bucket do Amazon S3.
-
O Amazon EMR sempre verifica o código importado do código aberto para a imagem. Por motivos de segurança, não oferecemos suporte aos seguintes métodos de autenticação do Spark para o Amazon S3:
-
Definir chaves de acesso da AWS na classificação de configuração
hadoop-env
-
Codificar chaves de acesso da AWS no URI de
tempdir
-
-
Para obter mais informações sobre como usar o conector e os parâmetros compatíveis, consulte os seguintes recursos:
-
Integração do Amazon Redshift para Apache Spark no Guia de gerenciamento do Amazon Redshift.
-
O repositório da comunidade
spark-redshift
no GitHub.