Schritt 1: Definieren Sie Ihren POC Schritt 2: Amazon Redshift starten Schritt 3: Laden Sie Ihre Daten Schritt 4: Analysieren Sie Ihre Daten Schritt 5: Optimieren

Führen Sie einen Machbarkeitsnachweis (POC) für Amazon Redshift durch

Amazon Redshift ist ein beliebtes Cloud-Data Warehouse, das einen vollständig verwalteten Cloud-basierten Service bietet, der in den Amazon Simple Storage Service Data Lake eines Unternehmens, Echtzeit-Streams, maschinelles Lernen (ML), Transaktionsworkflows und vieles mehr integriert werden kann. Die folgenden Abschnitte führen Sie durch den Prozess der Durchführung eines Machbarkeitsnachweises (PoC) auf Amazon Redshift. Die Informationen hier helfen Ihnen bei der Festlegung von Zielen für Ihren POC und nutzen die Vorteile von Tools, mit denen Sie die Bereitstellung und Konfiguration von Services für Ihren POC automatisieren können.

Anmerkung

Um eine Kopie dieser Informationen als PDF zu erhalten, wählen Sie auf der Amazon Redshift-Ressourcenseite den Link Run your own Redshift POC.

Wenn Sie einen POC von Amazon Redshift durchführen, testen, testen und übernehmen Sie Funktionen, die von best-in-class Sicherheitsfunktionen über elastische Skalierung, einfache Integration und Aufnahme bis hin zu flexiblen dezentralen Datenarchitekturoptionen reichen.

Zeigt eine Darstellung der Schritte im Ablauf der Machbarkeitsstudie.

Folgen Sie diesen Schritten, um einen erfolgreichen Machbarkeitsnachweis durchzuführen.

Schritt 1: Definieren Sie Ihren POC

Zeigt, dass der Scope-Schritt der aktuelle Schritt im Proof-of-Concept-Prozess ist.

Bei der Durchführung eines POC können Sie entweder Ihre eigenen Daten oder Benchmarking-Datensätze verwenden. Wenn Sie Ihre eigenen Daten auswählen, führen Sie Ihre eigenen Abfragen anhand der Daten durch. Bei Benchmarking-Daten werden Beispielabfragen zusammen mit dem Benchmark bereitgestellt. Weitere Informationen finden Sie unter Verwenden von Beispieldatensätzen, falls Sie noch nicht bereit sind, einen POC mit Ihren eigenen Daten durchzuführen.

Im Allgemeinen empfehlen wir, Daten von zwei Wochen für einen Amazon Redshift Redshift-POC zu verwenden.

Gehen Sie zunächst wie folgt vor:

Identifizieren Sie Ihre geschäftlichen und funktionalen Anforderungen und arbeiten Sie dann rückwärts. Typische Beispiele sind: schnellere Leistung, geringere Kosten, Testen eines neuen Workloads oder Features oder Vergleich zwischen Amazon Redshift und einem anderen Data Warehouse.
Legen Sie spezifische Ziele fest, die zu den Erfolgskriterien für den POC werden. Überlegen Sie sich beispielsweise anhand einer schnelleren Leistung eine Liste der fünf wichtigsten Prozesse, die Sie beschleunigen möchten, und geben Sie die aktuellen Laufzeiten zusammen mit der erforderlichen Laufzeit an. Dabei kann es sich um Berichte, Abfragen, ETL-Prozesse, Datenerfassung oder was auch immer Ihre aktuellen Probleme sind, handeln.
Identifizieren Sie den spezifischen Umfang und die Artefakte, die für die Durchführung der Tests erforderlich sind. Welche Datensätze müssen Sie migrieren oder kontinuierlich in Amazon Redshift aufnehmen, und welche Abfragen und Prozesse sind erforderlich, um die Tests durchzuführen, um sie anhand der Erfolgskriterien zu messen? Es gibt zwei Möglichkeiten dafür:
Bringen Sie Ihre eigenen Daten mit
- Um Ihre eigenen Daten zu testen, erstellen Sie die mindestens praktikable Liste von Datenartefakten, die zum Testen Ihrer Erfolgskriterien erforderlich ist. Wenn Ihr aktuelles Data Warehouse beispielsweise über 200 Tabellen verfügt, die Berichte, die Sie testen möchten, jedoch nur 20 benötigen, kann Ihr POC schneller ausgeführt werden, wenn Sie nur die kleinere Teilmenge von Tabellen verwenden.
Verwenden Sie Beispieldatensätze
- Wenn Sie keine eigenen Datensätze bereit haben, können Sie trotzdem mit der Durchführung eines POC auf Amazon Redshift beginnen, indem Sie die branchenüblichen Benchmark-Datensätze wie TPC-DS oder TPC-H verwenden und Beispiel-Benchmarking-Abfragen ausführen, um die Leistungsfähigkeit von Amazon Redshift zu nutzen. Auf diese Datensätze kann von Ihrem Amazon Redshift Data Warehouse aus zugegriffen werden, nachdem es erstellt wurde. Detaillierte Anweisungen zum Zugriff auf diese Datensätze und Beispielabfragen finden Sie unter. Schritt 2: Amazon Redshift starten

Schritt 2: Amazon Redshift starten

Zeigt, dass der Startschritt von Amazon Redshift der aktuelle Schritt im Proof-of-Concept-Prozess ist.

Amazon Redshift sorgt mit schnellem, einfachem und sicherem Cloud-Data Warehousing in großem Maßstab dafür, dass Sie schneller Erkenntnisse gewinnen. Sie können schnell beginnen, indem Sie Ihr Warehouse auf der Redshift Serverless-Konsole starten und innerhalb von Sekunden von Daten zu Erkenntnissen gelangen. Mit Redshift Serverless können Sie sich darauf konzentrieren, Ihre Geschäftsergebnisse zu erzielen, ohne sich Gedanken über die Verwaltung Ihres Data Warehouse machen zu müssen.

Amazon Redshift Serverless einrichten

Wenn Sie Redshift Serverless zum ersten Mal verwenden, führt Sie die Konsole durch die Schritte, die zum Starten Ihres Warehouse erforderlich sind. Möglicherweise haben Sie auch Anspruch auf eine Gutschrift für Ihre Redshift Serverless-Nutzung in Ihrem Konto. Weitere Informationen zur Auswahl einer kostenlosen Testversion finden Sie unter Kostenlose Testversion von Amazon Redshift. Folgen Sie den Schritten unter Erstellen eines Data Warehouse mit Redshift Serverless im Amazon Redshift Getting Started Guide, um ein Data Warehouse mit Redshift Serverless zu erstellen. Wenn Sie keinen Datensatz haben, den Sie laden möchten, enthält der Leitfaden auch Schritte zum Laden eines Beispieldatensatzes.

Wenn Sie Redshift Serverless zuvor in Ihrem Konto gestartet haben, folgen Sie den Schritten unter Erstellen einer Arbeitsgruppe mit einem Namespace im Amazon Redshift Management Guide. Sobald Ihr Warehouse verfügbar ist, können Sie sich dafür entscheiden, die in Amazon Redshift verfügbaren Beispieldaten zu laden. Informationen zur Verwendung des Amazon Redshift Query Editors v2 zum Laden von Daten finden Sie unter Laden von Beispieldaten im Amazon Redshift Management Guide.

Wenn Sie Ihre eigenen Daten mitbringen, anstatt den Beispieldatensatz zu laden, finden Sie unter. Schritt 3: Laden Sie Ihre Daten

Schritt 3: Laden Sie Ihre Daten

Zeigt, dass der Ladeschritt der aktuelle Schritt im Proof-of-Concept-Prozess ist.

Nach dem Start von Redshift Serverless besteht der nächste Schritt darin, Ihre Daten für den POC zu laden. Ganz gleich, ob Sie eine einfache CSV-Datei hochladen, halbstrukturierte Daten aus S3 aufnehmen oder Daten direkt streamen, Amazon Redshift bietet die Flexibilität, die Daten schnell und einfach von der Quelle in Amazon Redshift Redshift-Tabellen zu verschieben.

Wählen Sie eine der folgenden Methoden, um Ihre Daten zu laden.

Laden Sie eine lokale Datei hoch

Für eine schnelle Aufnahme und Analyse können Sie den Amazon Redshift Query Editor v2 verwenden, um Datendateien einfach von Ihrem lokalen Desktop zu laden. Es ist in der Lage, Dateien in verschiedenen Formaten wie CSV, JSON, AVRO, PARQUET, ORC und mehr zu verarbeiten. Damit Ihre Benutzer als Administrator Daten mit dem Abfrage-Editor v2 von einem lokalen Desktop laden können, müssen Sie einen gemeinsamen Amazon S3 S3-Bucket angeben und das Benutzerkonto muss mit den entsprechenden Berechtigungen konfiguriert sein. Sie können das einfache und sichere Laden von Daten in Amazon Redshift verfolgen, indem Sie Query Editor V2 als step-by-step Anleitung verwenden.

Eine Amazon S3 S3-Datei laden

Um Daten aus einem Amazon S3 S3-Bucket in Amazon Redshift zu laden, verwenden Sie zunächst den Befehl COPY und geben Sie den Amazon S3 S3-Quellspeicherort und die Amazon Redshift Redshift-Zieltabelle an. Stellen Sie sicher, dass die IAM-Rollen und -Berechtigungen ordnungsgemäß konfiguriert sind, sodass Amazon Redshift auf den angegebenen Amazon S3 S3-Bucket zugreifen kann. Folgen Sie der Anleitung Tutorial: Daten aus Amazon S3 laden. step-by-step Sie können auch die Option Daten laden im Abfrage-Editor v2 wählen, um Daten direkt aus Ihrem S3-Bucket zu laden.

Kontinuierliche Datenaufnahme

Autocopy (in der Vorschauversion) ist eine Erweiterung des COPY-Befehls und automatisiert das kontinuierliche Laden von Daten aus Amazon S3 S3-Buckets. Wenn Sie einen Kopierauftrag erstellen, erkennt Amazon Redshift, wenn neue Amazon S3 S3-Dateien in einem angegebenen Pfad erstellt werden, und lädt sie dann automatisch, ohne dass Sie eingreifen müssen. Amazon Redshift verfolgt die geladenen Dateien, um sicherzustellen, dass sie nur einmal geladen werden. Anweisungen zum Erstellen von Kopieraufträgen finden Sie unter COPYJOB(Vorschau)

Anmerkung

Autocopy befindet sich derzeit in der Vorschauversion und wird nur in bestimmten bereitgestellten Clustern unterstützt. AWS-Regionen Informationen zum Erstellen eines Vorschau-Clusters für Autocopy finden Sie unter. Laden von Tabellen mit kontinuierlicher Dateiaufnahme aus Amazon S3 (Vorschau)

Laden Sie Ihre Streaming-Daten

Die Streaming-Aufnahme ermöglicht die Aufnahme von Stream-Daten aus Amazon Kinesis Data Streams und Amazon Managed Streaming for Apache Kafka mit niedriger Latenz und hoher Geschwindigkeit in Amazon Redshift. Die Amazon Redshift Redshift-Streaming-Aufnahme verwendet eine materialisierte Ansicht, die mithilfe der auto Aktualisierung direkt aus dem Stream aktualisiert wird. Die materialisierte Ansicht wird der Stream-Datenquelle zugeordnet. Sie können die Stream-Daten als Teil der Definition der materialisierten Ansicht filtern und aggregieren. step-by-step Anleitungen zum Laden von Daten aus einem Stream finden Sie unter Erste Schritte mit Amazon Kinesis Data Streams oder Erste Schritte mit Amazon Managed Streaming for Apache Kafka.

Schritt 4: Analysieren Sie Ihre Daten

Zeigt, dass der Analyseschritt der aktuelle Schritt im Proof-of-Concept-Prozess ist.

Nachdem Sie Ihre Redshift Serverless-Arbeitsgruppe und Ihren Namespace erstellt und Ihre Daten geladen haben, können Sie Abfragen sofort ausführen, indem Sie den Abfrage-Editor v2 im Navigationsbereich der Redshift Serverless-Konsole öffnen. Sie können den Abfrage-Editor v2 verwenden, um die Abfragefunktionalität oder die Abfrageleistung anhand Ihrer eigenen Datensätze zu testen.

Abfragen mit dem Amazon Redshift Redshift-Abfrage-Editor v2

Sie können über die Amazon Redshift Redshift-Konsole auf den Abfrage-Editor v2 zugreifen. Eine vollständige Anleitung zur Konfiguration, Verbindung und Ausführung von Abfragen mit dem Abfrage-Editor v2 finden Sie unter Vereinfachen Sie Ihre Datenanalyse mit dem Amazon Redshift Query Editor v2.

Wenn Sie einen Auslastungstest als Teil Ihres POC ausführen möchten, können Sie dies alternativ mit den folgenden Schritten tun, um Apache JMeter zu installieren und auszuführen.

Führen Sie einen Auslastungstest mit Apache JMeter durch

Um einen Auslastungstest durchzuführen, um „N“ Benutzer zu simulieren, die gleichzeitig Anfragen an Amazon Redshift senden, können Sie Apache JMeter verwenden, ein Open-Source-Tool auf Java-Basis.

Um Apache JMeter für die Ausführung in Ihrer Redshift Serverless-Arbeitsgruppe zu installieren und zu konfigurieren, folgen Sie den Anweisungen unter Automatisieren von Amazon Redshift Redshift-Lasttests mit dem Analytics Automation Toolkit. AWS Es verwendet das AWS Analytics Automation Toolkit (AAA), ein Open-Source-Hilfsprogramm für die dynamische Bereitstellung von Redshift-Lösungen, um diese Ressourcen automatisch zu starten. Wenn Sie Ihre eigenen Daten in Amazon Redshift geladen haben, stellen Sie sicher, dass Sie die Option Schritt #5 — SQL anpassen ausführen, um sicherzustellen, dass Sie die entsprechenden SQL-Anweisungen angeben, die Sie anhand Ihrer Tabellen testen möchten. Testen Sie jede dieser SQL-Anweisungen einmal mit dem Abfrage-Editor v2, um sicherzustellen, dass sie fehlerfrei ausgeführt werden.

Nachdem Sie die Anpassung Ihrer SQL-Anweisungen und die Fertigstellung Ihres Testplans abgeschlossen haben, speichern Sie Ihren Testplan und führen Sie ihn für Ihre Redshift Serverless-Arbeitsgruppe aus. Um den Fortschritt Ihres Tests zu überwachen, öffnen Sie die Redshift Serverless-Konsole, navigieren Sie zu Abfrage- und Datenbanküberwachung, wählen Sie die Registerkarte Abfrageverlauf und sehen Sie sich Informationen zu Ihren Abfragen an.

Wählen Sie für Leistungsmetriken die Registerkarte Datenbankleistung auf der Redshift Serverless-Konsole, um Metriken wie Datenbankverbindungen und CPU-Auslastung zu überwachen. Hier können Sie sich ein Diagramm ansehen, um die verwendete RPU-Kapazität zu überwachen und zu beobachten, wie Redshift Serverless automatisch skaliert, um gleichzeitigen Workload-Anforderungen gerecht zu werden, während der Auslastungstest für Ihre Arbeitsgruppe ausgeführt wird.

Beispieldiagramm, das die durchschnittlich genutzte RPU-Kapazität zeigt.

Datenbankverbindungen sind eine weitere nützliche Metrik, die Sie während der Ausführung des Auslastungstests überwachen können, um zu sehen, wie Ihre Arbeitsgruppe zahlreiche gleichzeitige Verbindungen zu einem bestimmten Zeitpunkt verarbeitet, um den steigenden Arbeitslastanforderungen gerecht zu werden.

Beispieldiagramm, das Datenbankverbindungen zeigt.

Schritt 5: Optimieren

Zeigt, dass der Optimierungsschritt der aktuelle Schritt im Proof-of-Concept-Prozess ist.

Amazon Redshift ermöglicht es Zehntausenden von Benutzern, täglich Exabyte an Daten zu verarbeiten und ihre Analyse-Workloads zu optimieren, indem es eine Vielzahl von Konfigurationen und Funktionen zur Unterstützung individueller Anwendungsfälle bietet. Bei der Wahl zwischen diesen Optionen suchen Kunden nach Tools, mit denen sie die optimale Data Warehouse-Konfiguration zur Unterstützung ihrer Amazon Redshift Redshift-Workloads ermitteln können.

Probefahrt

Sie können Test Drive verwenden, um Ihren vorhandenen Workload anhand potenzieller Konfigurationen automatisch abzuspielen und die entsprechenden Ergebnisse zu analysieren, um das optimale Ziel für die Migration Ihres Workloads zu ermitteln. Informationen zur Verwendung von Test Drive zur Evaluierung verschiedener Amazon Redshift Redshift-Konfigurationen finden Sie unter Finden der besten Amazon Redshift-Konfiguration für Ihren Workload mithilfe von Redshift Test Drive.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Best Practices

Bewährte Methoden für das Design von Tabellen

Führen Sie einen Machbarkeitsnachweis (POC) für Amazon Redshift durch

Anmerkung

Schritt 1: Definieren Sie Ihren POC

Bringen Sie Ihre eigenen Daten mit

Verwenden Sie Beispieldatensätze

Schritt 2: Amazon Redshift starten

Amazon Redshift Serverless einrichten

Schritt 3: Laden Sie Ihre Daten

Laden Sie eine lokale Datei hoch

Eine Amazon S3 S3-Datei laden

Kontinuierliche Datenaufnahme

Anmerkung

Laden Sie Ihre Streaming-Daten

Schritt 4: Analysieren Sie Ihre Daten

Abfragen mit dem Amazon Redshift Redshift-Abfrage-Editor v2

Führen Sie einen Auslastungstest mit Apache JMeter durch

Schritt 5: Optimieren

Probefahrt