Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Führen Sie einen Machbarkeitsnachweis (POC) für Amazon Redshift durch
Amazon Redshift ist ein beliebtes Cloud-Data Warehouse, das einen vollständig verwalteten Cloud-basierten Service bietet, der in den Amazon Simple Storage Service Data Lake eines Unternehmens, Echtzeit-Streams, maschinelles Lernen (ML), Transaktionsworkflows und vieles mehr integriert werden kann. Die folgenden Abschnitte führen Sie durch den Prozess der Durchführung eines Machbarkeitsnachweises (PoC) auf Amazon Redshift. Die Informationen hier helfen Ihnen bei der Festlegung von Zielen für Ihren POC und nutzen die Vorteile von Tools, mit denen Sie die Bereitstellung und Konfiguration von Services für Ihren POC automatisieren können.
Anmerkung
Um eine Kopie dieser Informationen als PDF zu erhalten, wählen Sie auf der Amazon Redshift-Ressourcenseite den Link Run your own Redshift
Wenn Sie einen POC von Amazon Redshift durchführen, testen, testen und übernehmen Sie Funktionen, die von best-in-class Sicherheitsfunktionen über elastische Skalierung, einfache Integration und Aufnahme bis hin zu flexiblen dezentralen Datenarchitekturoptionen reichen.
Folgen Sie diesen Schritten, um einen erfolgreichen Machbarkeitsnachweis durchzuführen.
Schritt 1: Definieren Sie Ihren POC
Bei der Durchführung eines POC können Sie entweder Ihre eigenen Daten oder Benchmarking-Datensätze verwenden. Wenn Sie Ihre eigenen Daten auswählen, führen Sie Ihre eigenen Abfragen anhand der Daten durch. Bei Benchmarking-Daten werden Beispielabfragen zusammen mit dem Benchmark bereitgestellt. Weitere Informationen finden Sie unter Verwenden von Beispieldatensätzen, falls Sie noch nicht bereit sind, einen POC mit Ihren eigenen Daten durchzuführen.
Im Allgemeinen empfehlen wir, Daten von zwei Wochen für einen Amazon Redshift Redshift-POC zu verwenden.
Gehen Sie zunächst wie folgt vor:
Identifizieren Sie Ihre geschäftlichen und funktionalen Anforderungen und arbeiten Sie dann rückwärts. Typische Beispiele sind: schnellere Leistung, geringere Kosten, Testen eines neuen Workloads oder Features oder Vergleich zwischen Amazon Redshift und einem anderen Data Warehouse.
Legen Sie spezifische Ziele fest, die zu den Erfolgskriterien für den POC werden. Überlegen Sie sich beispielsweise anhand einer schnelleren Leistung eine Liste der fünf wichtigsten Prozesse, die Sie beschleunigen möchten, und geben Sie die aktuellen Laufzeiten zusammen mit der erforderlichen Laufzeit an. Dabei kann es sich um Berichte, Abfragen, ETL-Prozesse, Datenerfassung oder was auch immer Ihre aktuellen Probleme sind, handeln.
Identifizieren Sie den spezifischen Umfang und die Artefakte, die für die Durchführung der Tests erforderlich sind. Welche Datensätze müssen Sie migrieren oder kontinuierlich in Amazon Redshift aufnehmen, und welche Abfragen und Prozesse sind erforderlich, um die Tests durchzuführen, um sie anhand der Erfolgskriterien zu messen? Es gibt zwei Möglichkeiten dafür:
Bringen Sie Ihre eigenen Daten mit
Um Ihre eigenen Daten zu testen, erstellen Sie die mindestens praktikable Liste von Datenartefakten, die zum Testen Ihrer Erfolgskriterien erforderlich ist. Wenn Ihr aktuelles Data Warehouse beispielsweise über 200 Tabellen verfügt, die Berichte, die Sie testen möchten, jedoch nur 20 benötigen, kann Ihr POC schneller ausgeführt werden, wenn Sie nur die kleinere Teilmenge von Tabellen verwenden.
Verwenden Sie Beispieldatensätze
Wenn Sie keine eigenen Datensätze bereit haben, können Sie trotzdem mit der Durchführung eines POC auf Amazon Redshift beginnen, indem Sie die branchenüblichen Benchmark-Datensätze wie TPC-DS oder TPC-H
verwenden und Beispiel-Benchmarking-Abfragen ausführen, um die Leistungsfähigkeit von Amazon Redshift zu nutzen. Auf diese Datensätze kann von Ihrem Amazon Redshift Data Warehouse aus zugegriffen werden, nachdem es erstellt wurde. Detaillierte Anweisungen zum Zugriff auf diese Datensätze und Beispielabfragen finden Sie unter. Schritt 2: Amazon Redshift starten
Schritt 2: Amazon Redshift starten
Amazon Redshift sorgt mit schnellem, einfachem und sicherem Cloud-Data Warehousing in großem Maßstab dafür, dass Sie schneller Erkenntnisse gewinnen. Sie können schnell beginnen, indem Sie Ihr Warehouse auf der Redshift Serverless-Konsole
Amazon Redshift Serverless einrichten
Wenn Sie Redshift Serverless zum ersten Mal verwenden, führt Sie die Konsole durch die Schritte, die zum Starten Ihres Warehouse erforderlich sind. Möglicherweise haben Sie auch Anspruch auf eine Gutschrift für Ihre Redshift Serverless-Nutzung in Ihrem Konto. Weitere Informationen zur Auswahl einer kostenlosen Testversion finden Sie unter Kostenlose Testversion von Amazon Redshift
Wenn Sie Redshift Serverless zuvor in Ihrem Konto gestartet haben, folgen Sie den Schritten unter Erstellen einer Arbeitsgruppe mit einem Namespace im Amazon Redshift Management Guide. Sobald Ihr Warehouse verfügbar ist, können Sie sich dafür entscheiden, die in Amazon Redshift verfügbaren Beispieldaten zu laden. Informationen zur Verwendung des Amazon Redshift Query Editors v2 zum Laden von Daten finden Sie unter Laden von Beispieldaten im Amazon Redshift Management Guide.
Wenn Sie Ihre eigenen Daten mitbringen, anstatt den Beispieldatensatz zu laden, finden Sie unter. Schritt 3: Laden Sie Ihre Daten
Schritt 3: Laden Sie Ihre Daten
Nach dem Start von Redshift Serverless besteht der nächste Schritt darin, Ihre Daten für den POC zu laden. Ganz gleich, ob Sie eine einfache CSV-Datei hochladen, halbstrukturierte Daten aus S3 aufnehmen oder Daten direkt streamen, Amazon Redshift bietet die Flexibilität, die Daten schnell und einfach von der Quelle in Amazon Redshift Redshift-Tabellen zu verschieben.
Wählen Sie eine der folgenden Methoden, um Ihre Daten zu laden.
Laden Sie eine lokale Datei hoch
Für eine schnelle Aufnahme und Analyse können Sie den Amazon Redshift Query Editor v2 verwenden, um Datendateien einfach von Ihrem lokalen Desktop zu laden. Es ist in der Lage, Dateien in verschiedenen Formaten wie CSV, JSON, AVRO, PARQUET, ORC und mehr zu verarbeiten. Damit Ihre Benutzer als Administrator Daten mit dem Abfrage-Editor v2 von einem lokalen Desktop laden können, müssen Sie einen gemeinsamen Amazon S3 S3-Bucket angeben und das Benutzerkonto muss mit den entsprechenden Berechtigungen konfiguriert sein. Sie können das einfache und sichere Laden von Daten in Amazon Redshift verfolgen, indem Sie Query Editor V2 als step-by-step Anleitung verwenden
Eine Amazon S3 S3-Datei laden
Um Daten aus einem Amazon S3 S3-Bucket in Amazon Redshift zu laden, verwenden Sie zunächst den Befehl COPY und geben Sie den Amazon S3 S3-Quellspeicherort und die Amazon Redshift Redshift-Zieltabelle an. Stellen Sie sicher, dass die IAM-Rollen und -Berechtigungen ordnungsgemäß konfiguriert sind, sodass Amazon Redshift auf den angegebenen Amazon S3 S3-Bucket zugreifen kann. Folgen Sie der Anleitung Tutorial: Daten aus Amazon S3 laden. step-by-step Sie können auch die Option Daten laden im Abfrage-Editor v2 wählen, um Daten direkt aus Ihrem S3-Bucket zu laden.
Kontinuierliche Datenaufnahme
Autocopy (in der Vorschauversion) ist eine Erweiterung des COPY-Befehls und automatisiert das kontinuierliche Laden von Daten aus Amazon S3 S3-Buckets. Wenn Sie einen Kopierauftrag erstellen, erkennt Amazon Redshift, wenn neue Amazon S3 S3-Dateien in einem angegebenen Pfad erstellt werden, und lädt sie dann automatisch, ohne dass Sie eingreifen müssen. Amazon Redshift verfolgt die geladenen Dateien, um sicherzustellen, dass sie nur einmal geladen werden. Anweisungen zum Erstellen von Kopieraufträgen finden Sie unter COPYJOB(Vorschau)
Anmerkung
Autocopy befindet sich derzeit in der Vorschauversion und wird nur in bestimmten bereitgestellten Clustern unterstützt. AWS-Regionen Informationen zum Erstellen eines Vorschau-Clusters für Autocopy finden Sie unter. Laden von Tabellen mit kontinuierlicher Dateiaufnahme aus Amazon S3 (Vorschau)
Laden Sie Ihre Streaming-Daten
Die Streaming-Aufnahme ermöglicht die Aufnahme von Stream-Daten aus Amazon Kinesis Data Streams und Amazon
Schritt 4: Analysieren Sie Ihre Daten
Nachdem Sie Ihre Redshift Serverless-Arbeitsgruppe und Ihren Namespace erstellt und Ihre Daten geladen haben, können Sie Abfragen sofort ausführen, indem Sie den Abfrage-Editor v2 im Navigationsbereich der Redshift Serverless-Konsole öffnen.
Abfragen mit dem Amazon Redshift Redshift-Abfrage-Editor v2
Sie können über die Amazon Redshift Redshift-Konsole auf den Abfrage-Editor v2 zugreifen. Eine vollständige Anleitung zur Konfiguration, Verbindung und Ausführung von Abfragen mit dem Abfrage-Editor v2 finden Sie unter Vereinfachen Sie Ihre Datenanalyse mit dem Amazon Redshift
Wenn Sie einen Auslastungstest als Teil Ihres POC ausführen möchten, können Sie dies alternativ mit den folgenden Schritten tun, um Apache JMeter zu installieren und auszuführen.
Führen Sie einen Auslastungstest mit Apache JMeter durch
Um einen Auslastungstest durchzuführen, um „N“ Benutzer zu simulieren, die gleichzeitig Anfragen an Amazon Redshift senden, können Sie Apache JMeter
Um Apache JMeter für die Ausführung in Ihrer Redshift Serverless-Arbeitsgruppe zu installieren und zu konfigurieren, folgen Sie den Anweisungen unter Automatisieren von Amazon Redshift Redshift-Lasttests mit dem
Nachdem Sie die Anpassung Ihrer SQL-Anweisungen und die Fertigstellung Ihres Testplans abgeschlossen haben, speichern Sie Ihren Testplan und führen Sie ihn für Ihre Redshift Serverless-Arbeitsgruppe aus. Um den Fortschritt Ihres Tests zu überwachen, öffnen Sie die Redshift Serverless-Konsole
Wählen Sie für Leistungsmetriken die Registerkarte Datenbankleistung auf der Redshift Serverless-Konsole, um Metriken wie Datenbankverbindungen und CPU-Auslastung zu überwachen. Hier können Sie sich ein Diagramm ansehen, um die verwendete RPU-Kapazität zu überwachen und zu beobachten, wie Redshift Serverless automatisch skaliert, um gleichzeitigen Workload-Anforderungen gerecht zu werden, während der Auslastungstest für Ihre Arbeitsgruppe ausgeführt wird.
Datenbankverbindungen sind eine weitere nützliche Metrik, die Sie während der Ausführung des Auslastungstests überwachen können, um zu sehen, wie Ihre Arbeitsgruppe zahlreiche gleichzeitige Verbindungen zu einem bestimmten Zeitpunkt verarbeitet, um den steigenden Arbeitslastanforderungen gerecht zu werden.
Schritt 5: Optimieren
Amazon Redshift ermöglicht es Zehntausenden von Benutzern, täglich Exabyte an Daten zu verarbeiten und ihre Analyse-Workloads zu optimieren, indem es eine Vielzahl von Konfigurationen und Funktionen zur Unterstützung individueller Anwendungsfälle bietet. Bei der Wahl zwischen diesen Optionen suchen Kunden nach Tools, mit denen sie die optimale Data Warehouse-Konfiguration zur Unterstützung ihrer Amazon Redshift Redshift-Workloads ermitteln können.
Probefahrt
Sie können Test Drive