Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Exportieren Sie Daten, um die Transformationen aus Ihrem Datenfluss auf den gesamten importierten Datensatz anzuwenden. Sie können jeden Knoten in Ihrem Datenfluss an die folgenden Speicherorte exportieren:
-
SageMaker Canvas-Datensatz
-
Amazon S3
Wenn Sie Modelle in Canvas trainieren möchten, können Sie Ihren vollständigen, transformierten Datensatz als Canvas-Datensatz exportieren. Wenn Sie Ihre transformierten Daten in maschinellen Lern-Workflows außerhalb von SageMaker Canvas verwenden möchten, können Sie Ihren Datensatz nach Amazon S3 exportieren.
In einen Canvas-Datensatz exportieren
Gehen Sie wie folgt vor, um einen SageMaker Canvas-Datensatz aus einem Knoten in Ihrem Datenfluss zu exportieren.
Um einen Knoten in Ihrem Flow als SageMaker Canvas-Datensatz zu exportieren
-
Navigieren Sie zu Ihrem Datenfluss.
-
Wählen Sie das Ellipsensymbol neben dem Knoten aus, den Sie exportieren.
-
Zeigen Sie im Kontextmenü mit der Maus auf Exportieren und wählen Sie dann Daten in Canvas-Datensatz exportieren aus.
-
Geben Sie im Seitenbereich „In Canvas-Datensatz exportieren“ einen Datensatznamen für den neuen Datensatz ein.
-
Lassen Sie die Option Gesamten Datensatz verarbeiten ausgewählt, wenn SageMaker Canvas Ihren gesamten Datensatz verarbeiten und speichern soll. Deaktivieren Sie diese Option, um die Transformationen nur auf die Beispieldaten anzuwenden, mit denen Sie in Ihrem Datenfluss arbeiten.
-
Wählen Sie Export aus.
Sie sollten jetzt in der Lage sein, zur Datensatzseite der Canvas-Anwendung zu gehen und Ihren neuen Datensatz zu sehen.
Exportieren zu Amazon S3
Wenn Sie Ihre Daten nach Amazon S3 exportieren, können Sie skalieren, um Daten beliebiger Größe zu transformieren und zu verarbeiten. Canvas verarbeitet Ihre Daten automatisch lokal, wenn der Speicher der Anwendung die Größe Ihres Datensatzes bewältigen kann. Wenn Ihre Datensatzgröße die lokale Speicherkapazität von 5 GB überschreitet, initiiert Canvas in Ihrem Namen einen Remote-Job, um zusätzliche Rechenressourcen bereitzustellen und die Daten schneller zu verarbeiten. Standardmäßig verwendet Canvas Amazon EMR Serverless, um diese Remote-Jobs auszuführen. Sie können Canvas jedoch manuell so konfigurieren, dass entweder EMR Serverless oder ein SageMaker Verarbeitungsjob mit Ihren eigenen Einstellungen verwendet wird.
Anmerkung
Wenn Sie einen serverlosen EMR-Job ausführen, erbt der Job standardmäßig die IAM-Rolle, die KMS-Schlüsseleinstellungen und die Tags Ihrer Canvas-Anwendung.
Im Folgenden werden die Optionen für Remote-Jobs in Canvas zusammengefasst:
-
EMR Serverless: Dies ist die Standardoption, die Canvas für Remote-Jobs verwendet. EMR Serverless stellt Rechenressourcen automatisch bereit und skaliert sie, um Ihre Daten zu verarbeiten, sodass Sie sich keine Gedanken über die Auswahl der richtigen Rechenressourcen für Ihren Workload machen müssen. Weitere Informationen zu EMR Serverless finden Sie im EMR Serverless User Guide.
-
SageMaker Verarbeitung: SageMaker Verarbeitungsaufträge bieten erweiterte Optionen und eine detaillierte Kontrolle über die Rechenressourcen, die für die Verarbeitung Ihrer Daten verwendet werden. Sie können beispielsweise den Typ und die Anzahl der Recheninstanzen angeben, den Job in Ihrer eigenen VPC konfigurieren und den Netzwerkzugriff steuern, Verarbeitungsaufträge automatisieren und vieles mehr. Weitere Informationen zur Automatisierung von Verarbeitungsaufträgen finden Sie unter. Erstellen Sie einen Zeitplan für die automatische Verarbeitung neuer Daten Weitere allgemeine Informationen zur SageMaker Verarbeitung von Aufträgen finden Sie unterWorkloads zur Datentransformation mit SageMaker Verarbeitung.
Die folgenden Dateitypen werden beim Export nach Amazon S3 unterstützt:
-
CSV
-
Parquet
Lesen Sie die folgenden Seiten, um zu beginnen.
Voraussetzungen für serverlose EMR-Jobs
Um einen Remote-Job zu erstellen, der EMR Serverless-Ressourcen verwendet, benötigen Sie die erforderlichen Berechtigungen. Sie können Berechtigungen entweder über die Amazon SageMaker AI-Domain oder die Benutzerprofileinstellungen gewähren, oder Sie können die AWS IAM-Rolle Ihres Benutzers manuell konfigurieren. Anweisungen, wie Sie Benutzern Berechtigungen für die Verarbeitung großer Datenmengen gewähren, finden Sie unterGewähren Sie Benutzern Berechtigungen zur Nutzung großer Datenmengen während des gesamten ML-Lebenszyklus.
Wenn Sie diese Richtlinien nicht konfigurieren möchten, aber dennoch große Datenmengen mit Data Wrangler verarbeiten müssen, können Sie alternativ einen SageMaker Verarbeitungsjob verwenden.
Verwenden Sie die folgenden Verfahren, um Ihre Daten nach Amazon S3 zu exportieren. Folgen Sie den optionalen erweiterten Schritten, um einen Remote-Job zu konfigurieren.
Um einen Knoten in Ihrem Flow nach Amazon S3 zu exportieren
-
Navigieren Sie zu Ihrem Datenfluss.
-
Wählen Sie das Ellipsensymbol neben dem Knoten aus, den Sie exportieren.
-
Zeigen Sie im Kontextmenü mit der Maus auf Exportieren und wählen Sie dann Daten nach Amazon S3 exportieren aus.
-
Im Seitenbereich Nach Amazon S3 exportieren können Sie den Datensatznamen für den neuen Datensatz ändern.
-
Geben Sie für den S3-Standort den Amazon S3 S3-Standort ein, an den Sie den Datensatz exportieren möchten. Sie können die S3-URI, den Alias oder den ARN des S3-Standorts oder des S3-Zugriffspunkts eingeben. Weitere Informationen zu Zugriffspunkten finden Sie unter Verwaltung des Datenzugriffs mit Amazon S3 S3-Zugriffspunkten im Amazon S3 S3-Benutzerhandbuch.
-
(Optional) Geben Sie für die erweiterten Einstellungen Werte für die folgenden Felder an:
-
Dateityp — Das Dateiformat Ihrer exportierten Daten.
-
Trennzeichen — Das Trennzeichen, das zum Trennen von Werten in der Datei verwendet wird.
-
Komprimierung — Die Komprimierungsmethode, die verwendet wird, um die Dateigröße zu reduzieren.
-
Anzahl der Partitionen — Die Anzahl der Datensatzdateien, die Canvas als Ausgabe des Jobs schreibt.
-
Spalten auswählen — Sie können eine Teilmenge von Spalten aus den Daten auswählen, die in die Partitionen aufgenommen werden sollen.
-
-
Lassen Sie die Option Gesamten Datensatz verarbeiten ausgewählt, wenn Canvas Ihre Datenflusstransformationen auf Ihren gesamten Datensatz anwenden und das Ergebnis exportieren soll. Wenn Sie diese Option deaktivieren, wendet Canvas die Transformationen nur auf die Stichprobe Ihres Datensatzes an, die im interaktiven Data Wrangler-Datenfluss verwendet wird.
Anmerkung
Wenn Sie nur eine Stichprobe Ihrer Daten exportieren, verarbeitet Canvas Ihre Daten in der Anwendung und erstellt keinen Remote-Job für Sie.
-
Lassen Sie die Option Automatische Jobkonfiguration ausgewählt, wenn Canvas automatisch bestimmen soll, ob der Job mithilfe des Canvas-Anwendungsspeichers oder eines EMR-Serverless-Jobs ausgeführt werden soll. Wenn Sie diese Option deaktivieren und Ihren Job manuell konfigurieren, können Sie wählen, ob Sie einen EMR Serverless Job oder einen SageMaker Processing Job verwenden möchten. Anweisungen zur Konfiguration eines EMR-Serverless-Jobs oder eines SageMaker Processing-Jobs finden Sie im Abschnitt nach diesem Verfahren, bevor Sie Ihre Daten exportieren.
-
Wählen Sie Export aus.
Die folgenden Verfahren zeigen, wie Sie die Remote-Job-Einstellungen für EMR Serverless oder SageMaker Processing manuell konfigurieren, wenn Sie Ihren vollständigen Datensatz nach Amazon S3 exportieren.
Gehen Sie wie folgt vor, um einen EMR-Serverless-Job beim Export nach Amazon S3 zu konfigurieren:
-
Deaktivieren Sie im Seitenbereich Nach Amazon S3 exportieren die Option Automatische Jobkonfiguration.
-
Wählen Sie EMR Serverless aus.
-
Geben Sie unter Jobname einen Namen für Ihren EMR Serverless-Job ein. Der Name kann Buchstaben, Zahlen, Bindestriche und Unterstriche enthalten.
-
Geben Sie für die IAM-Rolle die IAM-Ausführungsrolle des Benutzers ein. Diese Rolle sollte über die erforderlichen Berechtigungen verfügen, um EMR Serverless-Anwendungen auszuführen. Weitere Informationen finden Sie unter Gewähren Sie Benutzern Berechtigungen zur Nutzung großer Datenmengen während des gesamten ML-Lebenszyklus.
-
(Optional) Geben Sie für KMS-Schlüssel die Schlüssel-ID oder den ARN eines an AWS KMS key , um die Jobprotokolle zu verschlüsseln. Wenn Sie keinen Schlüssel eingeben, verwendet Canvas einen Standardschlüssel für EMR Serverless.
-
(Optional) Geben Sie für die Monitoring-Konfiguration den Namen einer Amazon CloudWatch Logs-Protokollgruppe ein, in der Sie Ihre Protokolle veröffentlichen möchten.
-
(Optional) Fügen Sie für Tags dem EMR Serverless-Job, der aus Schlüssel-Wert-Paaren besteht, Metadaten-Tags hinzu. Diese Tags können verwendet werden, um Jobs zu kategorisieren und nach ihnen zu suchen.
-
Wählen Sie Export, um den Auftrag zu starten.
Nach dem Export Ihrer Daten sollten Sie den vollständig verarbeiteten Datensatz am angegebenen Amazon S3 S3-Speicherort finden.