Integrazione con Amazon Redshift per Apache Spark - Amazon Redshift

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Integrazione con Amazon Redshift per Apache Spark

Apache Spark è un framework di elaborazione distribuito e un modello di programmazione che ti aiuta ad eseguire attività come machine learning, elaborazione di flussi o analisi di grafici. Come Apache Hadoop, Spark è un sistema di elaborazione distribuito open source utilizzato in genere per carichi di lavoro di Big Data. Spark dispone di un motore di esecuzione del grafico aciclico diretto (DAG) ottimizzato e memorizza attivamente nella cache i dati in memoria. Ciò può migliorare le prestazioni, in particolare per determinati algoritmi e per le query interattive.

Questa integrazione ti fornisce un connettore Spark che puoi usare per creare applicazioni Apache Spark in grado di leggere e scrivere dati in Amazon Redshift e Amazon Redshift serverless. Queste applicazioni non compromettono le prestazioni delle applicazioni o la coerenza transazionale dei dati. Questa integrazione è inclusa automaticamente in Amazon EMR e AWS Glue, quindi, puoi eseguire immediatamente i job Apache Spark che accedono e caricano i dati in Amazon Redshift come parte delle tue pipeline di acquisizione e trasformazione dei dati.

Al momento, con questa integrazione puoi utilizzare le versioni 3.3.0, 3.3.1, 3.3.2 e 3.4.0 di Spark.

Questa integrazione fornisce quanto segue:

  • AWS Identity and Access Management IAM() autenticazione. Per ulteriori informazioni, consulta Identity and access management in Amazon Redshift.

  • Pushdown dei predicati e delle query per migliorare le prestazioni.

  • Tipi di dati di Amazon Redshift.

  • Connettività ad Amazon Redshift e Amazon Redshift serverless.

Considerazioni e limitazioni relative all'utilizzo del connettore Spark

  • Il tempdir URI punta a una posizione Amazon S3. Questa directory temporanea non viene pulita automaticamente e potrebbe comportare costi aggiuntivi. Si consiglia di utilizzare le Policy del ciclo di vita di Amazon S3 nella Amazon Simple Storage Service User Guide (Guida per l'utente di Amazon Simple Storage Service) per definire le regole di conservazione del bucket Amazon S3.

  • Per impostazione predefinita, le copie tra Amazon S3 e Redshift non funzionano se il bucket S3 e il cluster Redshift si trovano in regioni diverse. AWS Per utilizzare AWS regioni separate, imposta il tempdir_region parametro sulla regione del bucket S3 utilizzato per. tempdir

  • Scritture tra regioni tra S3 e Redshift se si scrivono dati Parquet utilizzando il parametro tempformat.

  • Si consiglia di utilizzare Crittografia lato server di Amazon S3 per crittografare i bucket Amazon S3 utilizzati.

  • Si consiglia di bloccare l'accesso pubblico ai bucket Amazon S3.

  • Si consiglia di non rendere accessibile pubblicamente il cluster Amazon Redshift.

  • Si consiglia di abilitare la registrazione dell'audit di Amazon Redshift.

  • Si consiglia di abilitare la crittografia dei dati inattivi di Amazon Redshift.

  • Ti consigliamo di attivare SSL la JDBC connessione da Spark su Amazon EMR ad Amazon Redshift.

  • Consigliamo di passare un IAM ruolo utilizzando il parametro aws_iam_role per il parametro di autenticazione Amazon Redshift.