Amazon Redshift – Konzeptionelle Übersicht - Amazon Redshift

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Amazon Redshift – Konzeptionelle Übersicht

Mit Amazon Redshift Serverless können Sie auf Daten zugreifen und diese analysieren, ohne alle Konfigurationen wie bei einem bereitgestellten Data Warehouse vornehmen zu müssen. Ressourcen werden automatisch bereitgestellt und die Data-Warehouse-Kapazität wird intelligent skaliert, um eine schnelle Leistung selbst für anspruchsvollste und unvorhersehbare Workloads zu erzielen. Es fallen keine Kosten an, wenn das Data Warehouse inaktiv ist, Sie zahlen also nur für das, was Sie tatsächlich nutzen. Sie können Daten laden und sofort mit der Abfrage beginnen. Hierfür können Sie Amazon Redshift Query Editor v2 oder Ihr bevorzugtes Business Intelligence (BI)-Tool nutzen. Profitieren Sie von einem optimalen Preis-Leistungs-Verhältnis und nutzen Sie vertraute SQL-Funktionen in einer benutzerfreundlichen Umgebung ohne Verwaltungsaufwand.

Wenn Sie Amazon Redshift zum ersten Mal verwenden, empfehlen wir Ihnen, zunächst die folgenden Abschnitte zu lesen:

Wenn Sie Ihre Amazon-Redshift-Ressourcen lieber manuell verwalten möchten, können Sie bereitgestellte Cluster für Ihre Datenabfrageanforderungen erstellen. Weitere Informationen finden Sie unter Amazon-Redshift-Cluster.

Wenn Ihre Organisation berechtigt ist und Ihr Cluster in einer AWS-Region erstellt wird, in der Amazon Redshift Serverless nicht verfügbar ist, können Sie möglicherweise im Rahmen des kostenlosen Testprogramms von Amazon Redshift einen Cluster erstellen. Wählen Sie entweder Produktion oder Kostenlose Testversion als Antwort auf die Frage: Wofür möchten Sie diesen Cluster verwenden? Wenn Sie Kostenlose Testversion auswählen, erstellen Sie eine Konfiguration mit dem Knotentyp dc2.large. Weitere Informationen zur Auswahl einer kostenlosen Testversion finden Sie unter Kostenloses Testprogramm für Amazon Redshift. Eine Liste der AWS-Regionen, in denen Amazon Redshift Serverless verfügbar ist, finden Sie in der Übersicht über die Endpunkte für die Redshift-Serverless-API in der Allgemeine Amazon Web Services-Referenz..

Im Folgenden sind einige wichtige Konzepte von Amazon Redshift Serverless aufgeführt.

  • Namespace – Eine Sammlung von Datenbankobjekten und Benutzern. In Namespaces sind alle Ressourcen zusammengefasst, die Sie in Amazon Redshift Serverless verwenden, wie Schemas, Tabellen, Benutzer, Datashares und Snapshots.

  • Arbeitsgruppe – Eine Sammlung von Rechenressourcen. In Arbeitsgruppen sind Rechenressourcen enthalten, die Amazon Redshift Serverless zur Ausführung von Datenverarbeitungsaufgaben verwendet. Einige Beispiele für solche Ressourcen sind Redshift Processing Units (RPUs), Sicherheitsgruppen und Nutzungslimits. Arbeitsgruppen verfügen über Netzwerk- und Sicherheitseinstellungen, die Sie über die Amazon-Redshift-Serverless-Konsole, die AWS Command Line Interface oder die Amazon-Redshift-Serverless-APIs konfigurieren können.

Weitere Informationen zum Konfigurieren von Namespace- und Arbeitsgruppenressourcen finden Sie unter Arbeiten mit Namespaces und Arbeiten mit Arbeitsgruppen.

Im Folgenden sind einige wichtige Konzepte im Zusammenhang mit von Amazon Redshift bereitgestellten Clustern aufgeführt:

  • Cluster – Die zentrale Infrastrukturkomponente eines Amazon-Redshift-Data-Warehouse ist ein Cluster.

    Ein Cluster besteht aus einem oder mehreren Datenverarbeitungsknoten. Die Datenverarbeitungsknoten führen den kompilierten Code aus.

    Wird ein Cluster mit zwei oder mehr Datenverarbeitungsknoten bereitgestellt, koordiniert ein zusätzlicher Führungsknoten die Datenverarbeitungsknoten. Der Führungsknoten übernimmt die externe Kommunikation mit Anwendungen, wie Business-Intelligence-Tools und Abfrage-Editoren. Ihre Client-Anwendung interagiert nur mit dem Führungsknoten direkt. Die Datenverarbeitungsknoten sind für externe Anwendungen transparent.

  • Datenbank – Ein Cluster enthält eine oder mehrere Datenbanken.

    Benutzerdaten werden in einer oder mehreren Datenbanken auf den Datenverarbeitungsknoten gespeichert. Ihr SQL-Client kommuniziert mit dem Führungsknoten, der wiederum die Abfrageausführung mit den Datenverarbeitungsknoten koordiniert. Weitere Informationen zu Datenverarbeitungs- und Führungsknoten finden Sie unter Data-Warehouse-Systemarchitektur. Innerhalb einer Datenbank sind Benutzerdaten in einem Schema oder mehreren Schemata organisiert.

    Amazon Redshift ist ein relationales Datenbankmanagementsystem (RDBMS) und ist mit anderen RDBMS-Anwendungen kompatibel. Amazon Redshift stellt dieselben Funktionen wie ein typisches RDBMS bereit, einschließlich Funktionen zur Online-Transaktionsverarbeitung (Online Transaction Processing, OLTP), wie das Einfügen und Löschen von Daten. Amazon Redshift ist auch für leistungsfähige Batchanalysen und Berichterstattung von Datensätzen optimiert.

Im Folgenden finden Sie eine Beschreibung des typischen Datenverarbeitungsablaufs in Amazon Redshift sowie Beschreibungen verschiedener Teile im Ablauf. Weitere Informationen zur Amazon-Redshift-Systemarchitektur finden Sie unter Architektur des Data-Warehouse-Systems.

Das folgende Diagramm zeigt einen typischen Datenverarbeitungsablauf in Amazon Redshift.

Ein Amazon-Redshift-Data-Warehouse ist eine Abfrage- und Verwaltungssystem der Enterprise-Klasse für relationale Datenbanken. Amazon Redshift unterstützt Client-Verbindungen mit vielen Arten von Anwendungen, einschließlich Business Intelligence (BI), Berichterstellung, Daten und Analysetools. Bei Analyseabfragen werden große Datenmengen in mehrphasigen Operationen abgerufen, verglichen und bewertet, um ein Endergebnis zurückzugeben.

In der Ebene der Datenerfassung laden verschiedene Arten von Datenquellen kontinuierlich strukturierte, halbstrukturierte oder unstrukturierte Daten in die Datenspeicher-Ebene hoch. Dieser Datenspeicherbereich dient als Staging-Bereich, der Daten in verschiedenen Zuständen der Nutzungsbereitschaft speichert. Ein Beispiel für einen solchen Speicher ist ein Amazon Simple Storage Service (Amazon S3)-Bucket.

In der optionalen Ebene Datenverarbeitung durchlaufen die Quelldaten die Vorverarbeitung, Validierung und Transformation über Extract, Transform, Load (ETL)-oder Extract, Load, Transform (ELT)-Pipelines. Diese Rohdatensätze werden dann mithilfe von ETL-Operationen verfeinert. Ein Beispiel für eine ETL-Engine ist AWS Glue.

In der Ebene Datennutzung werden Daten in Ihren Amazon-Redshift-Cluster geladen, wo Sie Analyse-Workloads ausführen können.

Beispiele für Analyse-Workloads finden Sie unter Abfragen von externen Datenquellen.