Überlegungen und Einschränkungen bei der Verwendung des Spark-Connectors

Amazon-Redshift-Integration für Apache Spark

Apache Spark ist ein verteiltes Verarbeitungs-Framework und Programmiermodell, mit dem Sie Machine Learning, Stream-Verarbeitung oder Graph-Analysen durchführen können. Ähnlich wie Apache Hadoop ist Spark ein verteiltes Open-Source-Verarbeitungssystem, das häufig für Big-Data-Workloads verwendet wird. Spark verfügt über eine optimierte Engine zur Ausführung gerichteter azyklischer Graphen und speichert Daten aktiv im In-Memory-Cache. Dies kann die Leistung steigern, insbesondere bei bestimmten Algorithmen und interaktiven Abfragen.

Mit dieser Integration erhalten Sie einen Spark-Connector, mit dem Sie Apache-Spark-Anwendungen erstellen können, die Daten in Amazon Redshift und Amazon Redshift Serverless lesen und schreiben. Diese Anwendungen gehen keine Kompromisse bei der Anwendungsleistung oder der transaktionalen Konsistenz der Daten ein. Diese Integration ist automatisch in Amazon EMR und AWS Glue enthalten, sodass Sie sofort Apache-Spark-Aufträge ausführen können, die im Rahmen Ihrer Datenerfassungs- und Transformationspipelines auf Daten zugreifen und diese in Amazon Redshift laden.

Derzeit können Sie mit dieser Integration die Versionen 3.3.0, 3.3.1, 3.3.2 und 3.4.0 von Spark verwenden.

Diese Integration bietet Folgendes:

AWS Identity and Access Management (IAM) -Authentifizierung. Weitere Informationen finden Sie unter Identity and Access Management in Amazon Redshift.
Prädikat- und Abfrage-Pushdown zur Verbesserung der Leistung.
Amazon-Redshift-Datentypen.
Konnektivität mit Amazon Redshift und Amazon Redshift Serverless.

Überlegungen und Einschränkungen bei der Verwendung des Spark-Connectors

Die Tempdir-URI verweist auf einen Amazon-S3-Speicherort. Dieses temporäre Verzeichnis wird nicht automatisch bereinigt und kann zusätzliche Kosten verursachen. Wir empfehlen, die Lebenszyklusrichtlinien für Amazon S3 im Benutzerhandbuch für Amazon Simple Storage Service zu verwenden, um die Aufbewahrungsregeln für den Amazon-S3-Bucket zu definieren.
Standardmäßig funktionieren Kopien zwischen Amazon S3 und Redshift nicht, wenn sich der S3-Bucket und der Redshift-Cluster in verschiedenen AWS Regionen befinden. Um separate AWS Regionen zu verwenden, setzen Sie den tempdir_region Parameter auf die Region des S3-Buckets, der für den verwendet wird. tempdir
Regionsübergreifende Schreibvorgänge zwischen S3 und Redshift beim Schreiben von Parquet-Daten mit dem tempformat-Parameter.
Wir empfehlen die Verwendung der serverseitigen Amazon-S3-Verschlüsselung, um die verwendeten Amazon-S3-Buckets zu verschlüsseln.
Wir empfehlen, den öffentlichen Zugriff auf Amazon-S3-Buckets zu blockieren.
Wir empfehlen, den Amazon-Redshift-Cluster nicht öffentlich zugänglich zu machen.
Wir empfehlen, die Amazon-Redshift-Auditprotokollierung zu aktivieren.
Wir empfehlen, die Amazon-Redshift-Verschlüsselung im Ruhezustand zu aktivieren.
Wir empfehlen, SSL für die JDBC-Verbindung von Spark auf Amazon EMR zu Amazon Redshift zu aktivieren.
Wir empfehlen, eine IAM-Rolle mit dem Parameter aws_iam_role für den Amazon-Redshift-Authentifizierungsparameter zu übergeben.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

API-Referenz

Authentifizierung mit dem Spark-Connector