Considerazioni e limitazioni relative all'utilizzo del connettore Spark

Il connettore Spark supporta diversi modi per gestire le credenziali, configurare la sicurezza e connettersi con altri servizi. AWS Acquisisci familiarità con i consigli contenuti in questo elenco per configurare una connessione funzionale e resiliente.

Ti consigliamo di attivare SSL la JDBC connessione da Spark su Amazon EMR ad Amazon Redshift.
Come best practice, è consigliabile gestire le credenziali per il cluster Amazon Redshift in AWS Secrets Manager . AWS Secrets Manager Per un esempio, consulta Utilizzo per recuperare le credenziali per la connessione ad Amazon Redshift.
Ti consigliamo di passare un IAM ruolo con il parametro aws_iam_role per il parametro di autenticazione Amazon Redshift.
Il parametro tempformat attualmente non supporta il formato Parquet.
I tempdir URI punti rimandano a una sede Amazon S3. Questa directory temporanea non viene pulita in automatico e quindi potrebbe generare costi aggiuntivi.
Prendi in considerazione i seguenti consigli per Amazon Redshift:
- Si consiglia di bloccare l'accesso pubblico al cluster Amazon Redshift.
- Si consiglia di attivare la registrazione di log di verifica di Amazon Redshift.
- Si consiglia di attivare la crittografia dei dati inattivi di Amazon Redshift.
Prendi in considerazione i seguenti consigli per Amazon S3:
- Si consiglia di bloccare l'accesso pubblico ai bucket Amazon S3.
- Si consiglia di utilizzare la crittografia lato server di Amazon S3 per crittografare i bucket S3 utilizzati.
- Si consiglia di utilizzare le policy del ciclo di vita di Amazon S3 per definire le regole di conservazione del bucket S3.
- Amazon verifica EMR sempre il codice importato dall'open source nell'immagine. Per motivi di sicurezza, non supportiamo la codifica delle chiavi di AWS accesso tempdir URI come metodo di autenticazione da Spark ad Amazon S3.

Per ulteriori informazioni sull'utilizzo del connettore e dei parametri supportati, consulta le seguenti risorse:

Amazon Redshift integration for Apache Spark (Integrazione di Amazon Redshift per Apache Spark) nella Guida alla gestione di Amazon Redshift
Il repository della community spark-redshift su Github

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Lettura e scrittura su Amazon Redshift

Uso di Volcano