Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
DataZone Amazon-Schnellstart mit AWS Glue-Daten
Führen Sie die folgenden Schnellstartschritte aus, um die vollständigen Workflows für Datenproduzenten und Datenverbraucher in Amazon DataZone anhand von AWS Glue-Beispieldaten durchzugehen.
Schnellstart-Schritte
Schritt 1 — DataZone Amazon-Domain und Datenportal erstellen
Schritt 6 — Kuratieren und veröffentlichen Sie das Datenobjekt
Schritt 8 — Erstellen Sie eine Umgebung für die Datenanalyse
Schritt 9: Durchsuchen Sie den Datenkatalog und abonnieren Sie Daten
Schritt 11 — Erstellen Sie eine Abfrage und analysieren Sie Daten in Amazon Athena
Schritt 1 — DataZone Amazon-Domain und Datenportal erstellen
In diesem Abschnitt werden die Schritte zum Erstellen einer DataZone Amazon-Domain und eines Datenportals für diesen Workflow beschrieben.
Gehen Sie wie folgt vor, um eine DataZone Amazon-Domain zu erstellen. Weitere Informationen zu DataZone Amazon-Domains finden Sie unter DataZone Amazon-Terminologie und Konzepte.
-
Navigieren Sie unter https://console.aws.amazon.com/datazone
zur DataZone Amazon-Konsole, melden Sie sich an und wählen Sie dann Create domain aus. Anmerkung
Wenn Sie eine bestehende DataZone Amazon-Domain für diesen Workflow verwenden möchten, wählen Sie Domains anzeigen, wählen Sie dann die Domain aus, die Sie verwenden möchten, und fahren Sie dann mit Schritt 2 der Erstellung eines Veröffentlichungsprojekts fort.
-
Geben Sie auf der Seite „Domain erstellen“ Werte für die folgenden Felder ein:
-
Name — geben Sie einen Namen für Ihre Domain an. Für die Zwecke dieses Workflows können Sie diese Domain Marketing nennen.
-
Beschreibung — Geben Sie eine optionale Domainbeschreibung an.
-
Datenverschlüsselung — Ihre Daten werden standardmäßig mit einem Schlüssel verschlüsselt, der Ihnen AWS gehört und der für Sie verwaltet wird. Für diesen Anwendungsfall können Sie die Standardeinstellungen für die Datenverschlüsselung beibehalten.
Weitere Informationen zur Verwendung von vom Kunden verwalteten Schlüsseln finden Sie unterDatenverschlüsselung im Ruhezustand für Amazon DataZone. Wenn Sie Ihren eigenen KMS-Schlüssel für die Datenverschlüsselung verwenden, müssen Sie die folgende Anweisung in Ihre Standardeinstellung aufnehmenAmazonDataZoneDomainExecutionRole.
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "kms:Decrypt", "kms:GenerateDataKey" ], "Resource": "*" } ] }
-
Dienstzugriff — lassen Sie die standardmäßig ausgewählte Option Standardrolle verwenden unverändert.
Anmerkung
Wenn Sie eine bestehende DataZone Amazon-Domain für diesen Workflow verwenden, können Sie die Option Bestehende Servicerolle verwenden und dann eine bestehende Rolle aus dem Drop-down-Menü auswählen.
-
Wählen Sie unter Schnelleinrichtung die Option Dieses Konto für Datenverbrauch und -veröffentlichung einrichten aus. Diese Option aktiviert die integrierten DataZone Amazon-Blueprints von Data Lake und Data Warehouse und konfiguriert die erforderlichen Berechtigungen, Ressourcen, ein Standardprojekt und standardmäßige Data Lake- und Data Warehouse-Umgebungsprofile für dieses Konto. Weitere Informationen zu Amazon DataZone Blueprints finden Sie unter DataZone Amazon-Terminologie und Konzepte.
-
Lassen Sie die übrigen Felder unter den Berechtigungsdetails unverändert.
Anmerkung
Wenn Sie über eine bestehende DataZone Amazon-Domain verfügen, können Sie die Option Eine bestehende Servicerolle verwenden und dann eine vorhandene Rolle aus dem Drop-down-Menü für die Rollen Glue Manage Access, Redshift Manage Access und Provisioning auswählen.
-
Lassen Sie die Felder unter Tags unverändert.
-
Wählen Sie Domain erstellen aus.
-
-
Sobald die Domain erfolgreich erstellt wurde, wählen Sie diese Domain aus und notieren Sie sich auf der Übersichtsseite der Domain die Datenportal-URL für diese Domain. Sie können diese URL verwenden, um auf Ihr DataZone Amazon-Datenportal zuzugreifen, um die restlichen Schritte in diesem Workflow abzuschließen. Sie können auch zum Datenportal navigieren, indem Sie Datenportal öffnen wählen.
Anmerkung
In der aktuellen Version von Amazon DataZone kann die für das Datenportal generierte URL nach der Erstellung der Domain nicht mehr geändert werden.
Die Erstellung der Domain kann mehrere Minuten dauern. Warten Sie, bis die Domain den Status Verfügbar hat, bevor Sie mit dem nächsten Schritt fortfahren.
Schritt 2 — Erstellen Sie das Veröffentlichungsprojekt
In diesem Abschnitt werden die Schritte beschrieben, die erforderlich sind, um das Veröffentlichungsprojekt für diesen Workflow zu erstellen.
-
Sobald Sie Schritt 1 oben abgeschlossen und eine Domain erstellt haben, sehen Sie die Meldung Willkommen bei Amazon DataZone! Fenster. Wählen Sie in diesem Fenster Projekt erstellen.
-
Geben Sie den Projektnamen für diesen Workflow an. Sie können ihn benennen SalesDataPublishingProject, dann die restlichen Felder unverändert lassen und dann Erstellen wählen.
Schritt 3 — Erstellen Sie die Umgebung
In diesem Abschnitt werden die Schritte beschrieben, die zum Erstellen einer Umgebung für diesen Workflow erforderlich sind.
-
Sobald Sie Schritt 2 oben abgeschlossen und Ihr Projekt erstellt haben, wird das Fenster Ihr Projekt ist einsatzbereit angezeigt. Wählen Sie in diesem Fenster die Option Umgebung erstellen.
-
Geben Sie auf der Seite Umgebung erstellen Folgendes an und wählen Sie dann Umgebung erstellen aus.
-
Geben Sie Werte für Folgendes an:
-
Name — geben Sie den Namen für die Umgebung an. Für diese exemplarische Vorgehensweise können Sie ihn
Default data lake environment
aufrufen. -
Beschreibung — Geben Sie eine Beschreibung für die Umgebung an.
-
Umgebungsprofil — wählen Sie das DataLakeProfileUmgebungsprofil aus. Auf diese Weise können Sie Amazon DataZone in diesem Workflow verwenden, um mit Daten in Amazon S3, AWS Glue Catalog und Amazon Athena zu arbeiten.
-
Lassen Sie für diese exemplarische Vorgehensweise die restlichen Felder unverändert.
-
-
Wählen Sie Create environment (Umgebung erstellen) aus.
Schritt 4: Daten für die Veröffentlichung erstellen
In diesem Abschnitt werden die Schritte beschrieben, die erforderlich sind, um Daten für die Veröffentlichung in diesem Workflow zu erstellen.
-
Nachdem Sie Schritt 3 oben abgeschlossen haben, wählen Sie in Ihrem
SalesDataPublishingProject
Projekt im rechten Bereich unter Analytics-Tools Amazon Athena aus. Dadurch wird der Athena-Abfrageeditor geöffnet, der die Anmeldeinformationen Ihres Projekts zur Authentifizierung verwendet. Vergewissern Sie sich, dass Ihre Veröffentlichungsumgebung in der Dropdownliste DataZone Amazon-Umgebung und die<environment_name>%_pub_db
Datenbank wie im Abfrage-Editor ausgewählt ist. -
In dieser exemplarischen Vorgehensweise verwenden Sie das CTAS-Abfrageskript (Create Table as Select), um eine neue Tabelle zu erstellen, die Sie auf Amazon veröffentlichen möchten. DataZone Führen Sie dieses CTAS-Skript in Ihrem Abfrage-Editor aus, um eine
mkt_sls_table
Tabelle zu erstellen, die Sie veröffentlichen und für die Suche und das Abonnement zur Verfügung stellen können.CREATE TABLE mkt_sls_table AS SELECT 146776932 AS ord_num, 23 AS sales_qty_sld, 23.4 AS wholesale_cost, 45.0 as lst_pr, 43.0 as sell_pr, 2.0 as disnt, 12 as ship_mode,13 as warehouse_id, 23 as item_id, 34 as ctlg_page, 232 as ship_cust_id, 4556 as bill_cust_id UNION ALL SELECT 46776931, 24, 24.4, 46, 44, 1, 14, 15, 24, 35, 222, 4551 UNION ALL SELECT 46777394, 42, 43.4, 60, 50, 10, 30, 20, 27, 43, 241, 4565 UNION ALL SELECT 46777831, 33, 40.4, 51, 46, 15, 16, 26, 33, 40, 234, 4563 UNION ALL SELECT 46779160, 29, 26.4, 50, 61, 8, 31, 15, 36, 40, 242, 4562 UNION ALL SELECT 46778595, 43, 28.4, 49, 47, 7, 28, 22, 27, 43, 224, 4555 UNION ALL SELECT 46779482, 34, 33.4, 64, 44, 10, 17, 27, 43, 52, 222, 4556 UNION ALL SELECT 46779650, 39, 37.4, 51, 62, 13, 31, 25, 31, 52, 224, 4551 UNION ALL SELECT 46780524, 33, 40.4, 60, 53, 18, 32, 31, 31, 39, 232, 4563 UNION ALL SELECT 46780634, 39, 35.4, 46, 44, 16, 33, 19, 31, 52, 242, 4557 UNION ALL SELECT 46781887, 24, 30.4, 54, 62, 13, 18, 29, 24, 52, 223, 4561
Stellen Sie sicher, dass die Tabelle mkt_sls_table erfolgreich im Abschnitt Tabellen und Ansichten auf der linken Seite erstellt wurde. Jetzt haben Sie ein Datenobjekt, das im DataZone Amazon-Katalog veröffentlicht werden kann.
Schritt 5 — Metadaten aus AWS Glue sammeln
In diesem Abschnitt wird der Schritt des Sammelns von Metadaten aus AWS Glue für diesen Workflow beschrieben.
-
Nachdem Sie Schritt 4 oben abgeschlossen haben, wählen Sie im DataZone Amazon-Datenportal das
SalesDataPublishingProject
Projekt, dann die Registerkarte Daten und dann im linken Bereich Datenquellen aus. -
Wählen Sie die Quelle aus, die im Rahmen der Erstellung der Umgebung erstellt wurde.
-
Wählen Sie neben dem Dropdownmenü „Aktion“ die Option „Ausführen“ und klicken Sie dann auf die Schaltfläche „Aktualisieren“. Sobald der Datenquellenlauf abgeschlossen ist, werden die Assets dem DataZone Amazon-Inventar hinzugefügt.
Schritt 6 — Kuratieren und veröffentlichen Sie das Datenobjekt
In diesem Abschnitt werden die Schritte zum Kuratieren und Veröffentlichen des Datenbestands in diesem Workflow beschrieben.
-
Nachdem Sie Schritt 5 oben abgeschlossen haben, wählen Sie im DataZone Amazon-Datenportal das
SalesDataPublishingProject
Projekt aus, das Sie im vorherigen Schritt erstellt haben, wählen Sie die Registerkarte Daten, wählen Sie im linken Bereich Inventardaten aus und suchen Sie diemkt_sls_table
Tabelle. -
Öffnen Sie die Seite mit den
mkt_sls_table
Asset-Details, um die automatisch generierten Unternehmensnamen zu sehen. Wählen Sie das Symbol Automatisch generierte Metadaten, um die automatisch generierten Namen für Assets und Spalten anzuzeigen. Sie können entweder jeden Namen einzeln akzeptieren oder ablehnen oder Alle akzeptieren wählen, um die generierten Namen zu übernehmen. Optional können Sie Ihrem Asset auch das verfügbare Metadatenformular hinzufügen und Glossarbegriffe auswählen, um Ihre Daten zu klassifizieren. -
Wählen Sie Asset veröffentlichen, um das Asset zu veröffentlichen.
mkt_sls_table
Schritt 7 — Erstellen Sie das Projekt für die Datenanalyse
In diesem Abschnitt werden die Schritte zur Erstellung des Projekts für die Datenanalyse beschrieben. Dies ist der Beginn der Datenverbraucherschritte dieses Workflows.
-
Nachdem Sie Schritt 6 oben abgeschlossen haben, wählen Sie im DataZone Amazon-Datenportal im Drop-down-Menü Projekt die Option Projekt erstellen aus.
-
Geben Sie auf der Seite Projekt erstellen den Projektnamen an. Sie können beispielsweise für diesen Workflow einen Namen angeben MarketingDataAnalysisProject, dann die restlichen Felder unverändert lassen und dann Erstellen wählen.
Schritt 8 — Erstellen Sie eine Umgebung für die Datenanalyse
In diesem Abschnitt werden die Schritte zum Erstellen einer Umgebung für die Datenanalyse beschrieben.
-
Nachdem Sie Schritt 7 oben abgeschlossen haben, wählen Sie im DataZone Amazon-Datenportal das
MarketingDataAnalysisProject
Projekt, dann die Registerkarte Umgebungen und dann Umgebung erstellen aus. -
Geben Sie auf der Seite Umgebung erstellen Folgendes an und wählen Sie dann Umgebung erstellen aus.
-
Name — geben Sie den Namen für die Umgebung an. Für diese exemplarische Vorgehensweise können Sie ihn
Default data lake environment
aufrufen. -
Beschreibung — Geben Sie eine Beschreibung für die Umgebung an.
-
Umgebungsprofil — wählen Sie das integrierte DataLakeProfileUmgebungsprofil aus.
-
Lassen Sie für diese exemplarische Vorgehensweise die restlichen Felder unverändert.
-
Schritt 9: Durchsuchen Sie den Datenkatalog und abonnieren Sie Daten
In diesem Abschnitt werden die Schritte zum Durchsuchen des Datenkatalogs und zum Abonnieren von Daten beschrieben.
-
Nachdem Sie Schritt 8 oben abgeschlossen haben, wählen Sie im DataZone Amazon-Datenportal das DataZone Amazon-Symbol und suchen Sie im DataZone Amazon-Suchfeld mithilfe von Schlüsselwörtern (z. B. „Katalog“ oder „Verkauf“) in der Suchleiste des Datenportals nach Datenbeständen.
Wenden Sie bei Bedarf Filter oder Sortierungen an. Sobald Sie das Asset mit den Produktverkaufsdaten gefunden haben, können Sie es auswählen, um die Detailseite des Assets zu öffnen.
-
Wählen Sie auf der Detailseite des Assets „Katalog-Verkaufsdaten“ die Option Abonnieren aus.
-
Wählen Sie im Dialogfeld Abonnieren Ihr MarketingDataAnalysisProjectVerbraucherprojekt aus der Dropdownliste aus, geben Sie dann den Grund für Ihre Abonnementanfrage an und wählen Sie dann Abonnieren aus.
Schritt 10 — Genehmigen Sie die Abonnementanfrage
In diesem Abschnitt werden die Schritte zur Genehmigung der Abonnementanfrage beschrieben.
-
Nachdem Sie Schritt 9 oben abgeschlossen haben, wählen Sie im DataZone Amazon-Datenportal das SalesDataPublishingProjectProjekt aus, mit dem Sie Ihr Asset veröffentlicht haben.
-
Wählen Sie die Registerkarte Daten, dann Veröffentlichte Daten und dann Eingehende Anfragen aus.
-
Jetzt können Sie die Zeile für die neue Anfrage sehen, für die eine Genehmigung erforderlich ist. Wählen Sie Anfrage anzeigen. Geben Sie einen Grund für die Genehmigung an und wählen Sie Genehmigen.
Schritt 11 — Erstellen Sie eine Abfrage und analysieren Sie Daten in Amazon Athena
Nachdem Sie ein Asset erfolgreich im DataZone Amazon-Katalog veröffentlicht und abonniert haben, können Sie es analysieren.
-
Wählen Sie im DataZone Amazon-Datenportal Ihr MarketingDataAnalysisProjectVerbraucherprojekt aus und wählen Sie dann im rechten Bereich unter Analytics-Tools den Link Daten abfragen mit Amazon Athena aus. Dadurch wird der Amazon Athena Athena-Abfrage-Editor geöffnet, der die Anmeldeinformationen Ihres Projekts zur Authentifizierung verwendet. Wählen Sie die MarketingDataAnalysisProjectVerbraucherumgebung aus der Dropdownliste Amazon DataZone Environment im Abfrage-Editor und wählen Sie dann Ihre Projekte
<environment_name>%sub_db
aus der Datenbank-Dropdown-Liste aus. -
Sie können jetzt Abfragen für die abonnierte Tabelle ausführen. Sie können die Tabelle aus Tabellen und Ansichten auswählen und dann „Vorschau“ wählen, damit die SELECT-Anweisung auf dem Editor-Bildschirm angezeigt wird. Führen Sie die Abfrage aus, um die Ergebnisse zu sehen.