In einen Canvas-Datensatz exportieren Exportieren zu Amazon S3

Daten exportieren

Exportieren Sie Daten, um die Transformationen aus Ihrem Datenfluss auf den gesamten importierten Datensatz anzuwenden. Sie können jeden Knoten in Ihrem Datenfluss an die folgenden Speicherorte exportieren:

SageMaker Canvas-Datensatz
Amazon S3

Wenn Sie Modelle in Canvas trainieren möchten, können Sie Ihren vollständigen, transformierten Datensatz als Canvas-Datensatz exportieren. Wenn Sie Ihre transformierten Daten in maschinellen Lern-Workflows außerhalb von SageMaker Canvas verwenden möchten, können Sie Ihren Datensatz nach Amazon S3 exportieren.

In einen Canvas-Datensatz exportieren

Gehen Sie wie folgt vor, um einen SageMaker Canvas-Datensatz aus einem Knoten in Ihrem Datenfluss zu exportieren.

Um einen Knoten in Ihrem Flow als SageMaker Canvas-Datensatz zu exportieren

Navigieren Sie zu Ihrem Datenfluss.
Wählen Sie das Ellipsensymbol neben dem Knoten aus, den Sie exportieren.
Zeigen Sie im Kontextmenü mit der Maus auf Exportieren und wählen Sie dann Daten in Canvas-Datensatz exportieren aus.
Geben Sie im Seitenbereich „In Canvas-Datensatz exportieren“ einen Datensatznamen für den neuen Datensatz ein.
Lassen Sie die Option Gesamten Datensatz verarbeiten ausgewählt, wenn SageMaker Canvas Ihren gesamten Datensatz verarbeiten und speichern soll. Deaktivieren Sie diese Option, um die Transformationen nur auf die Beispieldaten anzuwenden, mit denen Sie in Ihrem Datenfluss arbeiten.
Wählen Sie Export aus.

Sie sollten jetzt in der Lage sein, zur Datensatzseite der Canvas-Anwendung zu gehen und Ihren neuen Datensatz zu sehen.

Exportieren zu Amazon S3

Wenn Sie Ihre Daten nach Amazon S3 exportieren, können Sie skalieren, um Daten beliebiger Größe zu transformieren und zu verarbeiten. Canvas verarbeitet Ihre Daten automatisch lokal, wenn der Speicher der Anwendung die Größe Ihres Datensatzes bewältigen kann. Wenn Ihre Datensatzgröße die lokale Speicherkapazität von 5 GB überschreitet, initiiert Canvas in Ihrem Namen einen Remote-Job, um zusätzliche Rechenressourcen bereitzustellen und die Daten schneller zu verarbeiten. Standardmäßig verwendet Canvas Amazon EMR Serverless, um diese Remote-Jobs auszuführen. Sie können Canvas jedoch manuell so konfigurieren, dass entweder EMR Serverless oder ein SageMaker Verarbeitungsjob mit Ihren eigenen Einstellungen verwendet wird.

Anmerkung

Wenn Sie einen serverlosen EMR-Job ausführen, erbt der Job standardmäßig die IAM-Rolle, die KMS-Schlüsseleinstellungen und die Tags Ihrer Canvas-Anwendung.

Im Folgenden werden die Optionen für Remote-Jobs in Canvas zusammengefasst:

EMR Serverless: Dies ist die Standardoption, die Canvas für Remote-Jobs verwendet. EMR Serverless stellt Rechenressourcen automatisch bereit und skaliert sie, um Ihre Daten zu verarbeiten, sodass Sie sich keine Gedanken über die Auswahl der richtigen Rechenressourcen für Ihren Workload machen müssen. Weitere Informationen zu EMR Serverless finden Sie im EMR Serverless User Guide.
SageMaker Verarbeitung: SageMaker Verarbeitungsaufträge bieten erweiterte Optionen und eine detaillierte Kontrolle über die Rechenressourcen, die für die Verarbeitung Ihrer Daten verwendet werden. Sie können beispielsweise den Typ und die Anzahl der Recheninstanzen angeben, den Job in Ihrer eigenen VPC konfigurieren und den Netzwerkzugriff steuern, Verarbeitungsaufträge automatisieren und vieles mehr. Weitere Informationen zur Automatisierung von Verarbeitungsaufträgen finden Sie unter. Erstellen Sie einen Zeitplan für die automatische Verarbeitung neuer Daten Weitere allgemeine Informationen zur SageMaker Verarbeitung von Aufträgen finden Sie unterWorkloads zur Datentransformation mit SageMaker Verarbeitung.

Die folgenden Dateitypen werden beim Export nach Amazon S3 unterstützt:

CSV
Parquet

Lesen Sie die folgenden Seiten, um zu beginnen.

Voraussetzungen für serverlose EMR-Jobs

Um einen Remote-Job zu erstellen, der EMR Serverless-Ressourcen verwendet, benötigen Sie die erforderlichen Berechtigungen. Sie können Berechtigungen entweder über die Amazon SageMaker AI-Domain oder die Benutzerprofileinstellungen gewähren, oder Sie können die AWS IAM-Rolle Ihres Benutzers manuell konfigurieren. Anweisungen, wie Sie Benutzern Berechtigungen für die Verarbeitung großer Datenmengen gewähren, finden Sie unterGewähren Sie Benutzern Berechtigungen zur Nutzung großer Datenmengen während des gesamten ML-Lebenszyklus.

Wenn Sie diese Richtlinien nicht konfigurieren möchten, aber dennoch große Datenmengen mit Data Wrangler verarbeiten müssen, können Sie alternativ einen SageMaker Verarbeitungsjob verwenden.

Verwenden Sie die folgenden Verfahren, um Ihre Daten nach Amazon S3 zu exportieren. Folgen Sie den optionalen erweiterten Schritten, um einen Remote-Job zu konfigurieren.

Um einen Knoten in Ihrem Flow nach Amazon S3 zu exportieren

Navigieren Sie zu Ihrem Datenfluss.
Wählen Sie das Ellipsensymbol neben dem Knoten aus, den Sie exportieren.
Zeigen Sie im Kontextmenü mit der Maus auf Exportieren und wählen Sie dann Daten nach Amazon S3 exportieren aus.
Im Seitenbereich Nach Amazon S3 exportieren können Sie den Datensatznamen für den neuen Datensatz ändern.
Geben Sie für den S3-Standort den Amazon S3 S3-Standort ein, an den Sie den Datensatz exportieren möchten. Sie können die S3-URI, den Alias oder den ARN des S3-Standorts oder des S3-Zugriffspunkts eingeben. Weitere Informationen zu Zugriffspunkten finden Sie unter Verwaltung des Datenzugriffs mit Amazon S3 S3-Zugriffspunkten im Amazon S3 S3-Benutzerhandbuch.
(Optional) Geben Sie für die erweiterten Einstellungen Werte für die folgenden Felder an:
1. Dateityp — Das Dateiformat Ihrer exportierten Daten.
2. Trennzeichen — Das Trennzeichen, das zum Trennen von Werten in der Datei verwendet wird.
3. Komprimierung — Die Komprimierungsmethode, die verwendet wird, um die Dateigröße zu reduzieren.
4. Anzahl der Partitionen — Die Anzahl der Datensatzdateien, die Canvas als Ausgabe des Jobs schreibt.
5. Spalten auswählen — Sie können eine Teilmenge von Spalten aus den Daten auswählen, die in die Partitionen aufgenommen werden sollen.
Lassen Sie die Option Gesamten Datensatz verarbeiten ausgewählt, wenn Canvas Ihre Datenflusstransformationen auf Ihren gesamten Datensatz anwenden und das Ergebnis exportieren soll. Wenn Sie diese Option deaktivieren, wendet Canvas die Transformationen nur auf die Stichprobe Ihres Datensatzes an, die im interaktiven Data Wrangler-Datenfluss verwendet wird.

Anmerkung
Wenn Sie nur eine Stichprobe Ihrer Daten exportieren, verarbeitet Canvas Ihre Daten in der Anwendung und erstellt keinen Remote-Job für Sie.
Lassen Sie die Option Automatische Jobkonfiguration ausgewählt, wenn Canvas automatisch bestimmen soll, ob der Job mithilfe des Canvas-Anwendungsspeichers oder eines EMR-Serverless-Jobs ausgeführt werden soll. Wenn Sie diese Option deaktivieren und Ihren Job manuell konfigurieren, können Sie wählen, ob Sie einen EMR Serverless Job oder einen SageMaker Processing Job verwenden möchten. Anweisungen zur Konfiguration eines EMR-Serverless-Jobs oder eines SageMaker Processing-Jobs finden Sie im Abschnitt nach diesem Verfahren, bevor Sie Ihre Daten exportieren.
Wählen Sie Export aus.

Die folgenden Verfahren zeigen, wie Sie die Remote-Job-Einstellungen für EMR Serverless oder SageMaker Processing manuell konfigurieren, wenn Sie Ihren vollständigen Datensatz nach Amazon S3 exportieren.

EMR Serverless

Gehen Sie wie folgt vor, um einen EMR-Serverless-Job beim Export nach Amazon S3 zu konfigurieren:

Deaktivieren Sie im Seitenbereich Nach Amazon S3 exportieren die Option Automatische Jobkonfiguration.
Wählen Sie EMR Serverless aus.
Geben Sie unter Jobname einen Namen für Ihren EMR Serverless-Job ein. Der Name kann Buchstaben, Zahlen, Bindestriche und Unterstriche enthalten.
Geben Sie für die IAM-Rolle die IAM-Ausführungsrolle des Benutzers ein. Diese Rolle sollte über die erforderlichen Berechtigungen verfügen, um EMR Serverless-Anwendungen auszuführen. Weitere Informationen finden Sie unter Gewähren Sie Benutzern Berechtigungen zur Nutzung großer Datenmengen während des gesamten ML-Lebenszyklus.
(Optional) Geben Sie für KMS-Schlüssel die Schlüssel-ID oder den ARN eines an AWS KMS key , um die Jobprotokolle zu verschlüsseln. Wenn Sie keinen Schlüssel eingeben, verwendet Canvas einen Standardschlüssel für EMR Serverless.
(Optional) Geben Sie für die Monitoring-Konfiguration den Namen einer Amazon CloudWatch Logs-Protokollgruppe ein, in der Sie Ihre Protokolle veröffentlichen möchten.
(Optional) Fügen Sie für Tags dem EMR Serverless-Job, der aus Schlüssel-Wert-Paaren besteht, Metadaten-Tags hinzu. Diese Tags können verwendet werden, um Jobs zu kategorisieren und nach ihnen zu suchen.
Wählen Sie Export, um den Auftrag zu starten.

SageMaker Processing

Gehen Sie wie folgt vor, um einen SageMaker Verarbeitungsjob beim Export nach Amazon S3 zu konfigurieren:

Deaktivieren Sie im Seitenbereich Nach Amazon S3 exportieren die Option Automatische Jobkonfiguration.
Wählen Sie SageMaker Verarbeitung aus.
Geben Sie Job Jobname einen Namen für Ihren SageMaker AI Processing-Job ein.
Wählen Sie unter Instanztyp den Typ der Recheninstanz aus, um den Verarbeitungsjob auszuführen.
Geben Sie unter Anzahl der Instanzen die Anzahl der Recheninstanzen an, die gestartet werden sollen.
Geben Sie für die IAM-Rolle die IAM-Ausführungsrolle des Benutzers ein. Diese Rolle sollte über die erforderlichen Berechtigungen verfügen, damit SageMaker KI in Ihrem Namen Verarbeitungsaufträge erstellen und ausführen kann. Diese Berechtigungen werden gewährt, wenn Sie die AmazonSageMakerFullAccessRichtlinie mit Ihrer IAM-Rolle verknüpft haben.
Geben Sie unter Volume-Größe die Speichergröße in GB für das ML-Speichervolume ein, das jeder Verarbeitungsinstanz zugeordnet ist. Wählen Sie die Größe auf der Grundlage Ihrer erwarteten Eingabe- und Ausgabedatengröße.
(Optional) Geben Sie für den Volume-KMS-Schlüssel einen KMS-Schlüssel an, um das Speichervolume zu verschlüsseln. Wenn Sie keinen Schlüssel angeben, wird der standardmäßige Amazon EBS-Verschlüsselungsschlüssel verwendet.
(Optional) Geben Sie für KMS-Schlüssel einen KMS-Schlüssel an, um die Eingabe- und Ausgabedatenquellen von Amazon S3 zu verschlüsseln, die vom Verarbeitungsauftrag verwendet werden.
(Optional) Gehen Sie für die Spark-Speicherkonfiguration wie folgt vor:
1. Geben Sie den Treiberspeicher in MB für den Spark-Treiberknoten ein, der die Jobkoordination und -planung übernimmt.
2. Geben Sie Executor-Speicher in MB für die Spark-Executor-Knoten ein, die einzelne Aufgaben im Job ausführen.
(Optional) Gehen Sie für die Netzwerkkonfiguration wie folgt vor:
1. Geben Sie für Subnetzkonfiguration die IDs VPC-Subnetze ein, in denen die Verarbeitungsinstanzen gestartet werden sollen. Standardmäßig verwendet der Job die Einstellungen Ihrer Standard-VPC.
2. Geben Sie für die Sicherheitsgruppenkonfiguration die IDs Sicherheitsgruppen ein, mit denen die Verbindungsregeln für eingehende und ausgehende Verbindungen gesteuert werden sollen.
3. Aktivieren Sie die Option Verschlüsselung des Datenverkehrs zwischen Containern aktivieren, um die Netzwerkkommunikation zwischen Verarbeitungscontainern während des Jobs zu verschlüsseln.
(Optional) Für Associate-Zeitpläne können Sie einen EventBridge Amazon-Zeitplan erstellen wählen, damit der Verarbeitungsjob in wiederkehrenden Intervallen ausgeführt wird. Wählen Sie Neuen Zeitplan erstellen und füllen Sie das Dialogfeld aus. Weitere Informationen zum Ausfüllen dieses Abschnitts und zum planmäßigen Ausführen von Verarbeitungsaufträgen finden Sie unterErstellen Sie einen Zeitplan für die automatische Verarbeitung neuer Daten.
(Optional) Fügen Sie Tags als Schlüssel-Wert-Paare hinzu, damit Sie Verarbeitungsaufträge kategorisieren und nach ihnen suchen können.
Wählen Sie Exportieren, um den Verarbeitungsjob zu starten.

Nach dem Export Ihrer Daten sollten Sie den vollständig verarbeiteten Datensatz am angegebenen Amazon S3 S3-Speicherort finden.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Exportieren, um ein Modell zu erstellen

Exportieren Sie einen Datenfluss