Amazon-Redshift-Integration für Apache Spark - Amazon Redshift

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Amazon-Redshift-Integration für Apache Spark

Apache Spark ist ein verteiltes Verarbeitungs-Framework und Programmiermodell, mit dem Sie Machine Learning, Stream-Verarbeitung oder Graph-Analysen durchführen können. Ähnlich wie Apache Hadoop ist Spark ein verteiltes Open-Source-Verarbeitungssystem, das häufig für Big-Data-Workloads verwendet wird. Spark verfügt über eine optimierte Ausführungsengine mit gerichtetem azyklischem Graph (DAG) und speichert Daten aktiv im Speicher. Dies kann die Leistung steigern, insbesondere bei bestimmten Algorithmen und interaktiven Abfragen.

Mit dieser Integration erhalten Sie einen Spark-Connector, mit dem Sie Apache-Spark-Anwendungen erstellen können, die Daten in Amazon Redshift und Amazon Redshift Serverless lesen und schreiben. Diese Anwendungen gehen keine Kompromisse bei der Anwendungsleistung oder der transaktionalen Konsistenz der Daten ein. Diese Integration ist automatisch in Amazon EMR enthalten AWS Glue, sodass Sie sofort Apache Spark-Jobs ausführen können, die im Rahmen Ihrer Datenaufnahme- und Transformationspipelines auf Daten zugreifen und diese in Amazon Redshift laden.

Derzeit können Sie mit dieser Integration die Versionen 3.3.0, 3.3.1, 3.3.2 und 3.4.0 von Spark verwenden.

Diese Integration bietet Folgendes:

  • AWS Identity and Access Management () Authentifizierung. IAM Weitere Informationen finden Sie unter Identity and Access Management in Amazon Redshift.

  • Prädikat- und Abfrage-Pushdown zur Verbesserung der Leistung.

  • Amazon-Redshift-Datentypen.

  • Konnektivität mit Amazon Redshift und Amazon Redshift Serverless.

Überlegungen und Einschränkungen bei der Verwendung des Spark-Connectors

  • Das tempdir URI zeigt auf einen Amazon S3 S3-Standort. Dieses temporäre Verzeichnis wird nicht automatisch bereinigt und kann zusätzliche Kosten verursachen. Wir empfehlen, die Lebenszyklusrichtlinien für Amazon S3 im Benutzerhandbuch für Amazon Simple Storage Service zu verwenden, um die Aufbewahrungsregeln für den Amazon-S3-Bucket zu definieren.

  • Standardmäßig funktionieren Kopien zwischen Amazon S3 und Redshift nicht, wenn sich der S3-Bucket und der Redshift-Cluster in verschiedenen AWS Regionen befinden. Um separate AWS Regionen zu verwenden, setzen Sie den tempdir_region Parameter auf die Region des S3-Buckets, der für den verwendet wird. tempdir

  • Regionsübergreifende Schreibvorgänge zwischen S3 und Redshift beim Schreiben von Parquet-Daten mit dem tempformat-Parameter.

  • Wir empfehlen die Verwendung der serverseitigen Amazon-S3-Verschlüsselung, um die verwendeten Amazon-S3-Buckets zu verschlüsseln.

  • Wir empfehlen, den öffentlichen Zugriff auf Amazon-S3-Buckets zu blockieren.

  • Wir empfehlen, den Amazon-Redshift-Cluster nicht öffentlich zugänglich zu machen.

  • Wir empfehlen, die Amazon-Redshift-Auditprotokollierung zu aktivieren.

  • Wir empfehlen, die Amazon-Redshift-Verschlüsselung im Ruhezustand zu aktivieren.

  • Wir empfehlen, die JDBC Verbindung von Spark auf Amazon EMR zu Amazon Redshift einzuschalten. SSL

  • Wir empfehlen, eine IAM Rolle mithilfe des Parameters aws_iam_role für den Amazon Redshift Redshift-Authentifizierungsparameter zu übergeben.