Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Erste Schritte mit von Amazon Redshift bereitgestellten Data Warehouses
Wenn Sie Amazon Redshift zum ersten Mal verwenden, empfehlen wir Ihnen, die folgenden Abschnitte zu lesen, um Ihnen die ersten Schritte mit der Verwendung bereitgestellter Cluster zu erleichtern. Der grundlegende Ablauf von Amazon Redshift besteht darin, bereitgestellte Ressourcen zu erstellen, eine Verbindung zu Amazon Redshift herzustellen, Beispieldaten zu laden und dann Abfragen für die Daten auszuführen. In diesem Handbuch können Sie wählen, ob Sie Beispieldaten aus Amazon Redshift oder aus einem Amazon S3 S3-Bucket laden möchten. Die Beispieldaten werden in der gesamten Amazon Redshift Redshift-Dokumentation verwendet, um Funktionen zu demonstrieren.
Dieses Tutorial zeigt, wie Sie von Amazon Redshift bereitgestellte Cluster verwenden, bei denen es sich um AWS Data Warehouse-Objekte handelt, für die Sie Systemressourcen verwalten. Sie können Amazon Redshift auch mit serverlosen Arbeitsgruppen verwenden, bei denen es sich um Data Warehouse-Objekte handelt, die je nach Nutzung automatisch skaliert werden. Informationen zu den ersten Schritten mit Redshift Serverless finden Sie unter. Erste Schritte mit Amazon Redshift Serverless Data Warehouses
Nachdem Sie die bereitgestellte Amazon Redshift Redshift-Konsole erstellt und sich dort angemeldet haben, können Sie Amazon Redshift Redshift-Objekte, einschließlich Cluster, Knoten und Datenbanken, erstellen und verwalten. Sie können mit einem SQL-Client auch Abfragen ausführen, Abfragen anzeigen und andere Operationen in der SQL Data Definition Language (DDL) und Data Manipulation Language (DML) ausführen.
Wichtig
Der Cluster, den Sie für diese Übung bereitstellen, wird in einer Live-Umgebung ausgeführt. Solange er läuft, fallen Gebühren für Sie an. AWS-Konto Informationen zu Preisen finden Sie auf der Amazon-Redshift-Preisseite
Um unnötige Kosten zu vermeiden, sollten Sie den Cluster löschen, wenn Sie damit fertig sind. Im letzten Abschnitt dieses Kapitels wird erklärt, wie das geht.
Melden Sie sich bei der an AWS Management Console und öffnen Sie die Amazon Redshift Redshift-Konsole unter https://console.aws.amazon.com/redshiftv2/
Wir empfehlen Ihnen, zunächst das Dashboard für bereitgestellte Cluster aufzurufen, um mit der Nutzung der Amazon Redshift Redshift-Konsole zu beginnen.
Abhängig von Ihrer Konfiguration werden die folgenden Elemente im Navigationsbereich der von Amazon Redshift bereitgestellten Konsole angezeigt:
Redshift Serverless — Greifen Sie auf Daten zu und analysieren Sie sie, ohne die von Amazon Redshift bereitgestellten Cluster einrichten, optimieren und verwalten zu müssen.
Dashboard für bereitgestellte Cluster — Sehen Sie sich die Liste der Cluster in Ihrem an AWS-Region, überprüfen Sie Cluster-Metriken und Abfrageübersicht, um Einblicke in Metrikdaten (wie CPU-Auslastung) und Abfrageinformationen zu erhalten. Damit können Sie feststellen, ob Ihre Leistungsdaten über einen bestimmten Zeitraum anomal sind.
Cluster — Sehen Sie sich hier Ihre Clusterliste an AWS-Region, wählen Sie einen Cluster aus, um mit der Abfrage zu beginnen, oder führen Sie clusterbezogene Aktionen durch. Sie können von dieser Seite aus auch einen neuen Cluster erstellen.
Abfrage-Editor — Führen Sie Abfragen für Datenbanken aus, die auf Ihrem Amazon Redshift Redshift-Cluster gehostet werden. Wir empfehlen, stattdessen den Query-Editor v2 zu verwenden.
Query Editor v2 — Amazon Redshift Query Editor v2 ist eine separate webbasierte SQL-Client-Anwendung zum Verfassen und Ausführen von Abfragen in Ihrem Amazon Redshift Data Warehouse. Sie können Ihre Ergebnisse in Diagrammen darstellen und Abfragen mit anderen im Team teilen.
Queries and loads (Abfragen und Ladevorgänge) – Rufen Sie Informationen als Referenz oder zur Fehlerbehebung auf, z. B. eine Liste der letzten Abfragen und den SQL-Text für jede Abfrage.
Datashares – Als Administratoren eines Produzentenkontos können Sie entweder Konsumentenkonten zum Zugreifen auf Datashares autorisieren oder keinen Zugriff autorisieren. Um ein autorisiertes Datashare zu verwenden, kann ein Administrator eines Benutzerkontos das Datashare entweder einem ganzen AWS-Konto oder bestimmten Cluster-Namespaces in einem Konto zuordnen. Ein Administrator kann ein Datashare auch ablehnen.
Zero-ETL-Integrationen — Verwalten Sie Integrationen, die Transaktionsdaten in Amazon Redshift verfügbar machen, nachdem sie in unterstützte Quellen geschrieben wurden.
IAM Identity Center-Verbindungen — Konfigurieren Sie die Verbindung zwischen Amazon Redshift und IAM Identity Center.
Configurations (Konfigurationen) – Stellen Sie über Java-Database-Connectivity(JDBC)- und Open-Database-Connectivity(ODBC)-Verbindungen eine Verbindung von SQL-Client-Tools zu Amazon-Redshift-Clustern her. Sie können auch einen von Amazon Redshift verwalteten Virtual Private Cloud (VPC)-Endpunkt einrichten. Dadurch wird eine private Verbindung hergestellt zwischen einer VPC, die auf dem Amazon-VPC-Service basiert, der einen Cluster enthält, und einer anderen VPC, in der ein Client-Tool ausgeführt wird.
AWS Partnerintegration — Erstellen Sie eine Integration mit einem unterstützten Partner. AWS
Advisor – Erhalten Sie spezifische Empfehlungen zu Änderungen, die Sie an Ihrem Amazon-Redshift-Cluster vornehmen können, um Ihre Optimierungen zu priorisieren.
AWS Marketplace — Informieren Sie sich über andere Tools oder AWS Services, die mit Amazon Redshift funktionieren.
Alarms (Alarme) – Erstellen Sie Alarme für Cluster-Metriken, um Leistungsdaten anzuzeigen und Metriken über einen von Ihnen festgelegten Zeitraum nachzuverfolgen.
Events (Ereignisse) – Verfolgen Sie Ereignisse nach und rufen Sie Berichte mit Informationen wie dem Datum des Ereignisses, einer Beschreibung oder der Ereignisquelle ab.
What's new (Neuerungen) – Zeigen Sie neue Funktionen und Produktaktualisierungen von Amazon Redshift an.
In diesem Tutorial führen Sie die folgenden Schritte durch:

Themen
Melden Sie sich an für AWS
Wenn Sie noch keine haben AWS-Konto, melden Sie sich für eine an. Wenn Sie bereits ein Konto besitzen, können Sie diesen Schritt überspringen und Ihr vorhandenes Konto verwenden.
Öffne https://portal.aws.amazon.com/billing/die Anmeldung.
Folgen Sie den Online-Anweisungen.
Bei der Anmeldung müssen Sie auch einen Telefonanruf entgegennehmen und einen Verifizierungscode über die Telefontasten eingeben.
Wenn Sie sich für eine anmelden AWS-Konto, Root-Benutzer des AWS-Kontoswird eine erstellt. Der Root-Benutzer hat Zugriff auf alle AWS-Services und Ressourcen des Kontos. Als bewährte Sicherheitsmethode weisen Sie einem Administratorbenutzer Administratorzugriff zu und verwenden Sie nur den Root-Benutzer, um Aufgaben auszuführen, die Root-Benutzerzugriff erfordern.
Festlegen von Firewall-Regeln
Anmerkung
In diesem Tutorial wird davon ausgegangen, dass Ihr Cluster den Standardport 5439 verwendet und der Amazon Redshift Query Editor v2 zur Ausführung von SQL-Befehlen verwendet werden kann. Es geht nicht auf Details zu Netzwerkkonfigurationen oder zur Einrichtung eines SQL-Clients ein, die in Ihrer Umgebung erforderlich sein könnten.
In einigen Umgebungen geben Sie einen Port an, wenn Sie Ihren Amazon Redshift Redshift-Cluster starten. Sie verwenden diesen Port zusammen mit der Endpunkt-URL des Clusters, um auf den Cluster zuzugreifen. Des Weiteren erstellen Sie eine Zugangsregel für eingehenden Datenverkehr in einer Sicherheitsgruppe, die den Zugriff auf den Cluster über den Port regelt.
Wenn der Client-Computer durch eine Firewall geschützt ist, müssen Sie wissen, welcher Port offen ist. Über diesen offenen Port können Sie von einem SQL-Client-Tool eine Verbindung zum Cluster herstellen und Abfragen ausführen. Sollten Sie keinen offenen Port kennen, bitten Sie jemanden, der sich mit den Firewall-Regeln in Ihrem Netzwerk auskennt, einen offenen Port in der Firewall zu ermitteln.
Standardmäßig verwendet Amazon Redshift Port 5439. Eine Verbindung ist aber nur möglich, wenn dieser Port in der Firewall auch geöffnet ist. Sie können die Portnummer für den Amazon-Redshift-Cluster nach der Erstellung nicht mehr ändern. Stellen Sie daher sicher, dass Sie einen offenen Port angeben, der in Ihrer Umgebung beim Startvorgang funktioniert.
Schritt 1: Erstellen eines Amazon-Redshift-Beispielclusters
In diesem Tutorial gehen Sie durch den Prozess zur Erstellung eines Amazon Redshift Redshift-Clusters mit einer Datenbank. Anschließend laden Sie einen Datensatz von Amazon S3 in Tabellen in Ihrer Datenbank. Anhand dieses Beispiel-Clusters können Sie den Dienst Amazon Redshift auswerten.
Bevor Sie mit der Einrichtung eines Amazon Redshift Redshift-Clusters beginnen, stellen Sie sicher, dass Sie alle erforderlichen Voraussetzungen wie Melden Sie sich an für AWS und Festlegen von Firewall-Regeln erfüllen.
Für jeden Vorgang, der auf Daten von einer anderen AWS Ressource zugreift, benötigt Ihr Cluster die Erlaubnis, in Ihrem Namen auf die Ressource und die Daten auf der Ressource zuzugreifen. Ein Beispiel ist die Verwendung eines SQL COPY-Befehls zum Laden von Daten aus Amazon Simple Storage Service (Amazon S3). Sie stellen diese Berechtigungen mithilfe von AWS Identity and Access Management (IAM) bereit. Sie können dies über eine IAM-Rolle tun, die Sie erstellen und Ihrem Cluster zuordnen. Weitere Informationen zu Anmeldeinformationen und Zugriffsberechtigungen finden Sie unter Anmeldeinformationen und Zugriffsberechtigungen im Amazon Redshift Database Developer Guide.
So erstellen Sie einen Amazon-Redshift-Cluster
-
Melden Sie sich bei der an AWS Management Console und öffnen Sie die Amazon Redshift Redshift-Konsole unter https://console.aws.amazon.com/redshiftv2/
. Wichtig
Wenn Sie IAM-Benutzeranmeldeinformationen verwenden, stellen Sie sicher, dass Sie über die erforderlichen Berechtigungen verfügen, um die Cluster-Operationen durchzuführen. Weitere Informationen finden Sie unter Sicherheit in Amazon Redshift im Amazon Redshift Management Guide.
-
Wählen Sie auf der AWS Konsole den AWS-Region Ort aus, an dem Sie den Cluster erstellen möchten.
-
Wählen Sie im Navigationsmenü Clusters (Cluster) und dann Create cluster (Cluster erstellen) aus. Die Seite Create Cluster (Cluster erstellen) wird angezeigt.
-
Geben Sie im Bereich Cluster configuration (Cluster-Konfiguration) Werte für Cluster identifier (Cluster-ID), Node type (Knotentyp) und Nodes (Knoten) an:
-
Cluster Identifier (Cluster-ID): Geben Sie für dieses Tutorial
examplecluster
ein. Diese ID muss eindeutig sein. Die ID muss aus 1—63 Zeichen bestehen und darf nur die Buchstaben a–z (nur Kleinschreibung) und - (Bindestriche) enthalten. -
Wählen Sie eine der folgenden Methoden zur Bestimmung der Größe Ihres Clusters aus:
Anmerkung
Im folgenden Schritt wird von einem System ausgegangen AWS-Region , das RA3 Knotentypen unterstützt. Eine Liste der AWS-Regionen unterstützten RA3 Knotentypen finden Sie unter Überblick über RA3 Knotentypen im Amazon Redshift Management Guide. Weitere Informationen über die Knotenspezifikationen für die einzelnen Knotentypen und -größen finden Sie unter Details zu Knotentypen.
-
Wenn Sie nicht wissen, wie groß Ihr Cluster sein sollte, wählen Sie Help me choose (Hilfe bei der Auswahl) aus. Dadurch wird ein Größenrechner geöffnet, der Ihnen Fragen zur Größe und zu den Abfrageeigenschaften der Daten stellt, die Sie in Ihrem Data Warehouse speichern möchten.
Wenn Sie die erforderliche Größe Ihres Clusters kennen (d. h. den Knotentyp und die Anzahl der Knoten), wählen Sie I'll choose (Ich entscheide) aus. Wählen Sie den Node type (Knotentyp) und die Anzahl der Nodes (Knoten) aus, um die Größe Ihres Clusters für den Machbarkeitsnachweis zu bestimmen.
Wählen Sie für dieses Tutorial ra3.4xlarge als Knotentyp und 2 für Anzahl der Knoten.
Wenn eine AZ-Konfiguration verfügbar ist, wählen Sie Single-AZ.
Wählen Sie unter Sample data (Beispieldaten) Load sample data (Beispieldaten laden) aus, um den Beispieldatensatz zu verwenden, den Amazon Redshift bereitstellt. Amazon Redshift lädt den Beispieldatensatz Tickit in die standardmäßige
dev
-Datenbank und daspublic
-Schema.
-
-
-
Geben Sie im Bereich Datenbankkonfiguration einen Wert für Administrator-Benutzername ein. Wählen Sie für Administratorpasswort eine der folgenden Optionen aus:
-
Ein Passwort erstellen – Verwendung eines von Amazon Redshift generierten Passworts.
-
Administratorpasswort manuell hinzufügen – Verwendung Ihres eigenen Passworts.
-
Administratoranmeldedaten verwalten in AWS Secrets Manager — Amazon Redshift verwendet AWS Secrets Manager , um Ihr Administratorkennwort zu generieren und zu verwalten. Für AWS Secrets Manager die Generierung und Verwaltung Ihres Passworts fällt eine Gebühr an. Informationen zu den Preisen für AWS Secrets Manager finden Sie unter AWS Secrets Manager – Preise
.
Verwenden Sie für dieses Tutorial folgende Werte:
Admin user name (Administratorbenutzername): Geben Sie
awsuser
ein.Admin-Benutzerpasswort: Geben Sie
Changeit1
das Passwort ein.
-
-
Erstellen Sie für dieses Tutorial eine IAM-Rolle und legen Sie sie als Standard für Ihren Cluster fest, wie nachfolgend beschrieben. Für einen Cluster kann nur eine Standard-IAM-Rolle festgelegt werden.
Wählen Sie unter Cluster permissions (Cluster-Berechtigungen) bei Manage IAM roles (IAM-Rollen verwalten) die Option Create IAM role (IAM-Rolle erstellen) aus.
Geben Sie einen Amazon S3 Bucket an, auf den die IAM-Rolle zugreifen soll, indem Sie eine der folgenden Methoden verwenden:
Wählen Sie No additional Amazon S3 bucket (Kein zusätzlicher Amazon S3 Bucket) aus, damit die erstellte IAM-Rolle nur auf die Amazon S3 Buckets zugreifen kann, die als
redshift
benannt sind.Wählen Sie Any Amazon S3 bucket (Beliebiger Amazon S3 Bucket) aus, damit die erstellte IAM-Rolle auf alle Amazon S3 Buckets zugreifen kann.
Wählen Sie Specific Amazon S3 buckets (Bestimmte Amazon S3 Buckets) aus, um einen oder mehrere Amazon S3 Buckets anzugeben, auf die die erstellte IAM-Rolle Zugriff hat. Wählen Sie dann einen oder mehrere Amazon S3 Buckets aus der Tabelle aus.
Wählen Sie Create IAM role as default (IAM-Rolle als Standard erstellen) aus. Amazon Redshift erstellt automatisch die Rolle und legt sie als Standard für Ihren Cluster fest.
Da Sie Ihre IAM-Rolle von der Konsole aus erstellt haben, ist ihr die Richtlinie
AmazonRedshiftAllCommandsFullAccess
angefügt. Dadurch kann Amazon Redshift Daten von Amazon-Ressourcen in Ihrem IAM-Konto kopieren, laden, abfragen und analysieren.
Informationen zur Verwaltung der Standard-IAM-Rolle für einen Cluster finden Sie unter Creating an IAM role as default for Amazon Redshift im Amazon Redshift Management Guide.
-
(Optional) Deaktivieren Sie im Bereich Additional configurations (Zusätzliche Konfigurationen) die Option Use defaults (Standardwerte verwenden), um die Einstellungen Network and security (Netzwerk und Sicherheit), Database configuration (Datenbankkonfiguration), Maintenance (Wartung), Monitoring (Überwachung) und Backup anzupassen.
In manchen Fällen können Sie Ihren Cluster mit der Option Load sample data (Beispieldaten laden) erstellen. Dabei empfiehlt es sich möglicherweise, erweitertes Amazon-VPC-Routing zu aktivieren. In diesem Fall benötigt der Cluster in Ihrer Virtual Private Cloud (VPC) Zugriff auf den Amazon-S3-Endpunkt, damit Daten geladen werden können.
Um den Cluster öffentlich zugänglich zu machen, haben Sie zwei Möglichkeiten. Sie können eine NAT-Adresse (Network Address Translation) in Ihrer VPC konfigurieren, damit der Cluster auf das Internet zugreifen kann. Oder Sie können einen Amazon-S3-VPC-Endpunkt in Ihrer VPC konfigurieren. Weitere Informationen zu erweitertem Amazon VPC-Routing finden Sie unter Enhanced Amazon VPC Routing im Amazon Redshift Management Guide.
-
Wählen Sie Cluster erstellen. Warten Sie, bis Ihr Cluster mit dem
Available
Status auf der Cluster-Seite erstellt wurde.
Schritt 2: Regeln für eingehenden Datenverkehr für SQL-Clients konfigurieren
Anmerkung
Wir empfehlen Ihnen, diesen Schritt zu überspringen und mit dem Amazon Redshift Query Editor v2 auf Ihren Cluster zuzugreifen.
Im weiteren Verlauf dieses Tutorials greifen Sie aus einer Virtual Private Cloud (VPC) auf Grundlage des Amazon-VPC-Service heraus auf Ihren Cluster zu. Wenn Sie einen SQL-Client von außerhalb Ihrer Firewall für den Zugriff auf den Cluster verwenden, müssen Sie jedoch den eingehenden Zugriff gewähren.
So überprüfen Sie Ihre Firewall und gewähren eingehenden Zugriff auf Ihren Cluster:
Überprüfen Sie Ihre Firewall-Regeln, wenn auf Ihren Cluster von außerhalb einer Firewall zugegriffen werden muss. Ihr Client könnte beispielsweise eine Amazon Elastic Compute Cloud (Amazon EC2) -Instance oder ein externer Computer sein.
Weitere Informationen zu Firewallregeln finden Sie unter Sicherheitsgruppenregeln im EC2 Amazon-Benutzerhandbuch.
Um von einem EC2 externen Amazon-Client aus zuzugreifen, fügen Sie der mit Ihrem Cluster verbundenen Sicherheitsgruppe, die eingehenden Datenverkehr zulässt, eine Eingangsregel hinzu. Sie fügen EC2 Amazon-Sicherheitsgruppenregeln in der EC2 Amazon-Konsole hinzu. Zum Beispiel eine CIDR/IP of 192.0.2.0/24 allows clients in that IP address range to connect to your cluster. Find out the correct CIDR/IP für Ihre Umgebung.
Schritt 3: Gewähren Sie Zugriff auf einen SQL-Client und führen Sie Abfragen aus
Um Datenbanken abzufragen, die von Ihrem Amazon Redshift Redshift-Cluster gehostet werden, haben Sie mehrere Optionen für SQL-Clients. Dazu zählen:
Connect zu Ihrem Cluster her und führen Sie Abfragen mit dem Amazon Redshift Query Editor v2 aus.
Wenn Sie den Abfrage-Editor v2 verwenden, müssen Sie keine SQL-Client-Anwendung herunterladen und einrichten. Sie starten den Amazon Redshift Query Editor v2 von der Amazon Redshift Redshift-Konsole aus.
Stellen Sie mithilfe von RSQL eine Connect zu Ihrem Cluster her. Weitere Informationen finden Sie unter Connecting with Amazon Redshift RSQL im Amazon Redshift Management Guide.
-
Connect Sie über ein SQL-Client-Tool wie SQL Workbench/J eine Verbindung zu Ihrem Cluster her. Weitere Informationen finden Sie unter Connect zu Ihrem Cluster mithilfe von SQL Workbench/J im Amazon Redshift Management Guide.
In diesem Tutorial wird Amazon Redshift Query Editor v2 als einfache Methode zum Ausführen von Abfragen in Datenbanken verwendet, die von Ihrem Amazon Redshift Redshift-Cluster gehostet werden. Nachdem Sie Ihren Cluster erstellt haben, können Sie sofort Abfragen ausführen. Einzelheiten zu Überlegungen bei der Verwendung des Amazon Redshift-Abfrage-Editors v2 finden Sie unter Überlegungen bei der Arbeit mit dem Abfrage-Editor v2 im Amazon Redshift Management Guide.
Gewähren des Zugriffs auf Abfrage-Editor v2
Wenn ein Administrator den Abfrage-Editor v2 zum ersten Mal für Sie konfiguriert, wählt er den aus AWS-Konto, der zum Verschlüsseln der AWS KMS key Query Editor v2-Ressourcen verwendet wird. Zu den Ressourcen des Amazon Redshift Query Editor v2 gehören gespeicherte Abfragen, Notizbücher und Diagramme. Standardmäßig werden die Ressourcen mit einem AWS -eignen Schlüssel verschlüsselt. Alternativ kann ein Administrator einen vom Kunden verwalteten Schlüssel verwenden, indem er auf der Konfigurationsseite den Amazon-Ressourcennamen (ARN) für den Schlüssel auswählt. Nachdem Sie ein Konto konfiguriert haben, können die AWS KMS Verschlüsselungseinstellungen nicht mehr geändert werden. Weitere Informationen finden Sie unter Konfiguration Ihres AWS-Konto im Amazon Redshift Management Guide.
Um den Abfrage-Editor v2 aufzurufen, benötigen Sie eine Berechtigung. Ein Administrator kann eine der AWS verwalteten Richtlinien für Amazon Redshift Query Editor v2 an die IAM-Rolle oder den IAM-Benutzer anhängen, um Berechtigungen zu erteilen. Diese AWS verwalteten Richtlinien verfügen über verschiedene Optionen, mit denen gesteuert wird, wie das Markieren von Ressourcen die gemeinsame Nutzung von Abfragen ermöglicht. Sie können die IAM-Konsole (https://console.aws.amazon.com/iam/
Sie können auch Ihre eigene Richtlinie erstellen, basierend auf den zulässigen und verweigerten Berechtigungen in den bereitgestellten verwalteten Richtlinien. Wenn Sie den IAM-Konsolenrichtlinien-Editor verwenden, um Ihre eigene Richtlinie zu erstellen, wählen Sie SQL Workbench als Service aus, für den Sie die Richtlinie im visuellen Editor erstellen. Der Abfrage-Editor v2 verwendet den Servicenamen AWS SQL Workbench im Visual Editor und im IAM Policy Simulator.
Weitere Informationen finden Sie unter Arbeiten mit dem Abfrage-Editor v2 im Amazon-Redshift-Verwaltungshandbuch.
Schritt 4: Daten aus Amazon S3 in Amazon Redshift laden
Nachdem Sie Ihren Cluster erstellt haben, können Sie Daten aus Amazon S3 in Ihre Datenbanktabellen laden. Es gibt mehrere Möglichkeiten, Daten aus Amazon S3 zu laden.
Sie können einen SQL-Client verwenden, um den SQL-Befehl CREATE TABLE auszuführen, um eine Tabelle in Ihrer Datenbank zu erstellen, und dann den Befehl SQL COPY verwenden, um Daten aus Amazon S3 zu laden. Der Amazon Redshift Query Editor v2 ist ein SQL-Client.
Sie können den Ladeassistenten für den Amazon Redshift Query Editor v2 verwenden.
Dieses Tutorial zeigt, wie Sie den Amazon Redshift Query Editor v2 verwenden, um SQL-Befehle auszuführen, um Tabellen zu ERSTELLEN und Daten zu KOPIEREN. Starten Sie den Abfrage-Editor v2 über den Navigationsbereich der Amazon Redshift Redshift-Konsole. Stellen Sie im Query Editor v2 eine Verbindung zum examplecluster
Cluster und zur Datenbank her, die dev
mit Ihrem Admin-Benutzer awsuser
benannt sind. Wählen Sie für dieses Tutorial Temporäre Anmeldeinformationen mit einem Datenbankbenutzernamen, wenn Sie die Verbindung herstellen. Einzelheiten zur Verwendung des Amazon Redshift Query Editors v2 finden Sie unter Herstellen einer Verbindung zu einer Amazon Redshift-Datenbank im Amazon Redshift Management Guide.
Laden von Daten aus Amazon S3 mithilfe von SQL-Befehlen
Vergewissern Sie sich im Abfrage-Editor-Bereich des Abfrage-Editors v2, dass Sie mit dem examplecluster
Cluster und der dev
Datenbank verbunden sind. Erstellen Sie als Nächstes Tabellen in der Datenbank und laden Sie Daten in die Tabellen. In diesem Tutorial sind die Daten, die Sie laden, in einem Amazon S3 S3-Bucket verfügbar, auf den von vielen aus zugegriffen werden kann AWS-Regionen.
Das folgende Verfahren erstellt Tabellen und lädt Daten aus einem öffentlichen Amazon S3 S3-Bucket.
Verwenden Sie den Amazon Redshift Redshift-Abfrage-Editor v2, um die folgende Anweisung create table zu kopieren und auszuführen, um eine Tabelle im public
Schema der dev
Datenbank zu erstellen. Weitere Informationen zur Syntax finden Sie unter CREATE TABLE im Datenbankentwicklerhandbuch zu Amazon Redshift.
Um Daten mit einem SQL-Client wie dem Abfrage-Editor v2 zu erstellen und zu laden
-
Führen Sie den folgenden SQL-Befehl aus, um die
sales
Tabelle zu ERSTELLEN.drop table if exists sales;
create table sales( salesid integer not null, listid integer not null distkey, sellerid integer not null, buyerid integer not null, eventid integer not null, dateid smallint not null sortkey, qtysold smallint not null, pricepaid decimal(8,2), commission decimal(8,2), saletime timestamp);
-
Führen Sie den folgenden SQL-Befehl aus, um die
date
Tabelle zu ERSTELLEN.drop table if exists date;
create table date( dateid smallint not null distkey sortkey, caldate date not null, day character(3) not null, week smallint not null, month character(5) not null, qtr character(5) not null, year smallint not null, holiday boolean default('N'));
-
Laden Sie die
sales
Tabelle mit dem Befehl COPY aus Amazon S3.Anmerkung
Wir empfehlen, den Befehl COPY zu verwenden, um große Datensätze von Amazon S3 in Amazon Redshift zu laden. Weitere Informationen zur COPY-Syntax finden Sie unter COPY im Datenbankentwicklerhandbuch zu Amazon Redshift.
Stellen Sie Authentifizierung für Ihren Cluster um Zugriff auf Amazon S3 in Ihrem Namen bereit, um die Beispieldaten zu laden. Sie stellen die Authentifizierung bereit, indem Sie auf die IAM-Rolle verweisen, die Sie erstellt und als
default
für Ihren Cluster festgelegt haben, als Sie bei der Erstellung des Clusters IAM-Rolle erstellen als Standard ausgewählt haben.Laden Sie die
sales
Tabelle mit dem folgenden SQL-Befehl. Sie können optional die Quelldaten für diesales
Tabellevon Amazon S3 herunterladen und anzeigen. . COPY sales FROM 's3://redshift-downloads/tickit/sales_tab.txt' DELIMITER '\t' TIMEFORMAT 'MM/DD/YYYY HH:MI:SS' REGION 'us-east-1' IAM_ROLE default;
-
Laden Sie die
date
Tabelle mit dem folgenden SQL-Befehl. Sie können optional die Quelldaten für diedate
Tabellevon Amazon S3 herunterladen und anzeigen. . COPY date FROM 's3://redshift-downloads/tickit/date2008_pipe.txt' DELIMITER '|' REGION 'us-east-1' IAM_ROLE default;
Laden von Daten aus Amazon S3 mit dem Abfrage-Editor v2
In diesem Abschnitt wird beschrieben, wie Sie Ihre eigenen Daten in einen Amazon Redshift Redshift-Cluster laden. Der Abfrage-Editor v2 vereinfacht das Laden von Daten, wenn Sie den Assistenten zum Laden von Daten verwenden. Der COPY-Befehl, der im Query Editor v2 Wizard zum Laden von Daten generiert und verwendet wird, unterstützt viele der Parameter, die für die COPY-Befehlssyntax zum Laden von Daten aus Amazon S3 verfügbar sind. Weitere Informationen zum COPY-Befehl und zu seinen Optionen zum Kopieren und Laden aus Amazon S3 finden Sie unter COPY aus dem Amazon Simple Storage Service im Datenbankentwicklerhandbuch zu Amazon Redshift.
Um Ihre eigenen Daten aus Amazon S3 in Amazon Redshift zu laden, erfordert Amazon Redshift eine IAM-Rolle, die über die benötigten Berechtigungen zum Laden von Daten aus dem angegebenen Amazon S3 Bucket verfügt.
Um Ihre eigenen Daten von Amazon S3 nach Amazon Redshift zu laden, können Sie den Assistenten zum Laden von Daten im Abfrage-Editor v2 verwenden. Informationen zur Verwendung des Assistenten zum Laden von Daten finden Sie unter Daten aus Amazon S3 laden im Amazon Redshift Management Guide.
Erstellen Sie TICKIT-Daten in Ihrem Cluster
TICKIT ist eine Beispieldatenbank, die Sie optional in Ihren Amazon Redshift-Cluster laden können, um zu lernen, wie Sie Daten in Amazon Redshift abfragen. Sie können den vollständigen Satz von TICKIT-Tabellen erstellen und Daten auf folgende Weise in Ihren Cluster laden:
Wenn Sie in der Amazon Redshift Redshift-Konsole einen Cluster erstellen, haben Sie die Möglichkeit, TICKIT-Beispieldaten gleichzeitig zu laden. Wählen Sie in der Amazon Redshift Redshift-Konsole Clusters, Create cluster aus. Wählen Sie im Abschnitt Beispieldaten die Option Beispieldaten laden aus. Amazon Redshift lädt seinen Beispieldatensatz während der Clustererstellung automatisch in Ihre Amazon Redshift
dev
Redshift-Cluster-Datenbank.Gehen Sie wie folgt vor, um eine Verbindung zu einem vorhandenen Cluster herzustellen:
Wählen Sie in der Amazon Redshift Redshift-Konsole in der Navigationsleiste Clusters aus.
Wählen Sie Ihren Cluster im Bereich Cluster aus.
Wählen Sie Daten abfragen, Abfrage im Abfrage-Editor v2 aus.
Erweitern Sie Examplecluster in der Ressourcenliste. Wenn Sie zum ersten Mal eine Verbindung zu Ihrem Cluster herstellen, wird Connect to examplecluster angezeigt. Wählen Sie Datenbank-Benutzername und Passwort. Belassen Sie die Datenbank als
dev
. Geben Sieawsuser
den Benutzernamen undChangeit1
das Passwort an.Wählen Sie Create Connection (Verbindung erstellen) aus.
Mit dem Amazon Redshift Query Editor v2 können Sie TICKIT-Daten in eine Beispieldatenbank namens sample_data_dev laden. Wählen Sie die Datenbank sample_data_dev in der Ressourcenliste aus. Wählen Sie neben dem Tickit-Knoten das Symbol Beispielnotizbücher öffnen aus. Bestätigen Sie, dass Sie die Beispieldatenbank erstellen möchten.
Der Amazon Redshift Query Editor v2 erstellt die Beispieldatenbank zusammen mit einem Beispielnotizbuch mit dem Namen tickit-sample-notebook. Sie können Alle ausführen wählen, um dieses Notizbuch auszuführen und Daten in der Beispieldatenbank abzufragen.
Einzelheiten zu den TICKIT-Daten finden Sie unter Beispieldatenbank im Amazon Redshift Database Developer Guide.
Schritt 5: Beispielabfragen mit dem Abfrage-Editor testen
Informationen zum Einrichten und Verwenden des Amazon Redshift-Abfrage-Editors v2 zum Abfragen einer Datenbank finden Sie unter Arbeiten mit dem Abfrage-Editor v2 im Amazon Redshift Management Guide.
Testen Sie jetzt einige Beispielabfragen wie folgt. Um neue Abfragen im Abfrage-Editor v2 zu erstellen, wählen Sie das +-Symbol oben rechts im Abfragebereich und dann SQL. Eine neue Abfrageseite wird angezeigt, auf der Sie die folgenden SQL-Abfragen kopieren und einfügen können.
Anmerkung
Stellen Sie sicher, dass Sie zuerst die erste Abfrage im Notizbuch ausführen, wodurch der search_path
Serverkonfigurationswert mit dem folgenden SQL-Befehl auf das tickit
Schema festgelegt wird:
set search_path to tickit;
Weitere Informationen zur Arbeit mit dem SELECT-Befehl finden Sie unter SELECT im Amazon Redshift Database Developer Guide.
-- Get definition for the sales table. SELECT * FROM pg_table_def WHERE tablename = 'sales';
-- Find total sales on a given calendar date. SELECT sum(qtysold) FROM sales, date WHERE sales.dateid = date.dateid AND caldate = '2008-01-05';
-- Find top 10 buyers by quantity. SELECT firstname, lastname, total_quantity FROM (SELECT buyerid, sum(qtysold) total_quantity FROM sales GROUP BY buyerid ORDER BY total_quantity desc limit 10) Q, users WHERE Q.buyerid = userid ORDER BY Q.total_quantity desc;
-- Find events in the 99.9 percentile in terms of all time gross sales. SELECT eventname, total_price FROM (SELECT eventid, total_price, ntile(1000) over(order by total_price desc) as percentile FROM (SELECT eventid, sum(pricepaid) total_price FROM sales GROUP BY eventid)) Q, event E WHERE Q.eventid = E.eventid AND percentile = 1 ORDER BY total_price desc;
Schritt 6: Umgebung zurücksetzen
In den vorherigen Schritten haben Sie erfolgreich einen Amazon Redshift-Cluster erstellt, Daten in Tabellen geladen und Daten mit einem SQL-Client wie dem Amazon Redshift Query Editor v2 abgefragt.
Wenn Sie dieses Tutorial abgeschlossen haben, empfehlen wir, dass Sie Ihre Umgebung auf den vorherigen Zustand zurücksetzen, indem Sie Ihren Beispielcluster löschen. Es fallen so lange Amazon-Redshift-Nutzungsgebühren, bis Sie den Cluster löschen.
Möglicherweise möchten Sie den Beispielcluster jedoch weiterlaufen lassen, wenn Sie Aufgaben in anderen Amazon Redshift Redshift-Handbüchern oder Aufgaben ausprobieren möchten, die unter beschrieben sind. Befehle ausführen, um eine Datenbank in Ihrem Data Warehouse zu definieren und zu verwenden
Löschen eines Clusters
-
Melden Sie sich bei der an AWS Management Console und öffnen Sie die Amazon Redshift Redshift-Konsole unter https://console.aws.amazon.com/redshiftv2/
. -
Wählen Sie im Navigationsmenü Clusters (Cluster) aus, um Ihre Liste der Cluster anzuzeigen.
-
Wählen Sie den Cluster
examplecluster
aus. Klicken Sie bei Actions auf Delete. Der Delete Example-Cluster? Die Seite wird angezeigt. -
Bestätigen Sie, dass der Cluster gelöscht werden soll, deaktivieren Sie die Einstellung Endgültigen Snapshot erstellen und geben Sie dann die Eingabetaste ein,
delete
um das Löschen zu bestätigen. Wählen Sie Delete cluster (Cluster löschen) aus.
Auf der Seite mit der Clusterliste wird der Clusterstatus aktualisiert, wenn der Cluster gelöscht wird.
Nach Abschluss dieses Tutorials finden Sie weitere Informationen über Amazon Redshift sowie die nächsten Schritte unter Zusätzliche Ressourcen, um mehr über Amazon Redshift zu erfahren.