Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Daten exportieren
Exportieren Sie Daten, um die Transformationen aus Ihrem Datenfluss auf den gesamten importierten Datensatz anzuwenden. Sie können jeden Knoten in Ihrem Datenfluss an die folgenden Speicherorte exportieren:
-
SageMaker Canvas-Datensatz
-
Amazon S3
Wenn Sie Modelle in Canvas trainieren möchten, können Sie Ihren vollständigen, transformierten Datensatz als Canvas-Datensatz exportieren. Wenn Sie Ihre transformierten Daten in maschinellen Lern-Workflows außerhalb von SageMaker Canvas verwenden möchten, können Sie Ihren Datensatz nach Amazon S3 exportieren.
In einen Canvas-Datensatz exportieren
Gehen Sie wie folgt vor, um ein SageMaker Canvas-Dataset aus einem Knoten in Ihrem Datenfluss zu exportieren.
Um einen Knoten in Ihrem Flow als SageMaker Canvas-Datensatz zu exportieren
-
Navigieren Sie zu Ihrem Datenfluss.
-
Wählen Sie das Ellipsensymbol neben dem Knoten aus, den Sie exportieren.
-
Zeigen Sie im Kontextmenü mit der Maus auf Exportieren und wählen Sie dann Daten in Canvas-Datensatz exportieren aus.
-
Geben Sie im Seitenbereich „In Canvas-Datensatz exportieren“ einen Datensatznamen für den neuen Datensatz ein.
-
Lassen Sie die Option Gesamten Datensatz verarbeiten ausgewählt, wenn SageMaker Canvas Ihren gesamten Datensatz verarbeiten und speichern soll. Deaktivieren Sie diese Option, um die Transformationen nur auf die Beispieldaten anzuwenden, mit denen Sie in Ihrem Datenfluss arbeiten.
-
Wählen Sie Export aus.
Sie sollten jetzt in der Lage sein, zur Datensatzseite der Canvas-Anwendung zu gehen und Ihren neuen Datensatz zu sehen.
Exportieren zu Amazon S3
Wenn Sie Ihre Daten nach Amazon S3 exportieren, können Sie skalieren, um Daten jeder Größe zu transformieren und zu verarbeiten. Canvas verarbeitet Ihre Daten automatisch lokal, wenn der Speicher der Anwendung die Größe Ihres Datensatzes bewältigen kann. Wenn Ihre Datensatzgröße die lokale Speicherkapazität von 5 GB überschreitet, initiiert Canvas in Ihrem Namen einen Remote-Job, um zusätzliche Rechenressourcen bereitzustellen und die Daten schneller zu verarbeiten. Standardmäßig verwendet Canvas Amazon EMR Serverless, um diese Remote-Jobs auszuführen. Sie können Canvas jedoch manuell so konfigurieren, dass entweder EMR Serverless oder ein SageMaker Verarbeitungsjob mit Ihren eigenen Einstellungen verwendet wird.
Anmerkung
Wenn Sie einen EMR serverlosen Job ausführen, erbt der Job standardmäßig die IAM Rolle, die KMS wichtigsten Einstellungen und die Tags Ihrer Canvas-Anwendung.
Im Folgenden werden die Optionen für Remote-Jobs in Canvas zusammengefasst:
-
EMRServerlos: Dies ist die Standardoption, die Canvas für Remote-Jobs verwendet. EMRServerless stellt Rechenressourcen zur Verarbeitung Ihrer Daten automatisch bereit und skaliert sie, sodass Sie sich keine Gedanken über die Auswahl der richtigen Rechenressourcen für Ihren Workload machen müssen. Weitere Informationen zu EMR Serverless finden Sie im EMRServerless User Guide.
-
SageMaker Verarbeitung: SageMaker Verarbeitungsaufträge bieten erweiterte Optionen und eine detaillierte Kontrolle über die Rechenressourcen, die für die Verarbeitung Ihrer Daten verwendet werden. Sie können beispielsweise den Typ und die Anzahl der Recheninstanzen angeben, den Job selbst konfigurieren VPC und den Netzwerkzugriff kontrollieren, Verarbeitungsaufträge automatisieren und vieles mehr. Weitere Informationen zur Automatisierung von Verarbeitungsaufträgen finden Sie unterErstellen Sie einen Zeitplan für die automatische Verarbeitung neuer Daten. Weitere allgemeine Informationen zur SageMaker Verarbeitung von Aufträgen finden Sie unterWorkloads zur Datentransformation mit SageMaker Verarbeitung.
Die folgenden Dateitypen werden beim Export nach Amazon S3 unterstützt:
-
CSV
-
Parquet
Lesen Sie die folgenden Seiten, um zu beginnen.
Voraussetzungen für EMR serverlose Jobs
Um einen Remote-Auftrag zu erstellen, der EMR serverlose Ressourcen verwendet, benötigen Sie die erforderlichen Berechtigungen. Sie können Berechtigungen entweder über die SageMaker Amazon-Domain oder die Benutzerprofileinstellungen gewähren oder Sie können die AWS IAM Rolle Ihres Benutzers manuell konfigurieren. Anweisungen, wie Sie Benutzern Berechtigungen für die Verarbeitung großer Datenmengen gewähren, finden Sie unterGewähren Sie Benutzern Berechtigungen zur Nutzung großer Datenmengen während des gesamten ML-Lebenszyklus.
Wenn Sie diese Richtlinien nicht konfigurieren möchten, aber dennoch große Datenmengen mit Data Wrangler verarbeiten müssen, können Sie alternativ einen SageMaker Verarbeitungsjob verwenden.
Verwenden Sie die folgenden Verfahren, um Ihre Daten nach Amazon S3 zu exportieren. Folgen Sie den optionalen erweiterten Schritten, um einen Remote-Job zu konfigurieren.
Um einen Knoten in Ihrem Flow nach Amazon S3 zu exportieren
-
Navigieren Sie zu Ihrem Datenfluss.
-
Wählen Sie das Ellipsensymbol neben dem Knoten aus, den Sie exportieren.
-
Zeigen Sie im Kontextmenü mit der Maus auf Exportieren und wählen Sie dann Daten nach Amazon S3 exportieren aus.
-
Im Seitenbereich Nach Amazon S3 exportieren können Sie den Datensatznamen für den neuen Datensatz ändern.
-
Geben Sie für den S3-Standort den Amazon S3 S3-Standort ein, an den Sie den Datensatz exportieren möchten. Sie können den S3URI, den Alias oder ARN den S3-Standort oder den S3-Zugangspunkt eingeben. Weitere Informationen zu Zugriffspunkten finden Sie unter Verwaltung des Datenzugriffs mit Amazon S3 S3-Zugriffspunkten im Amazon S3 S3-Benutzerhandbuch.
-
(Optional) Geben Sie für die erweiterten Einstellungen Werte für die folgenden Felder an:
-
Dateityp — Das Dateiformat Ihrer exportierten Daten.
-
Trennzeichen — Das Trennzeichen, das zum Trennen von Werten in der Datei verwendet wird.
-
Komprimierung — Die Komprimierungsmethode, die verwendet wird, um die Dateigröße zu reduzieren.
-
Anzahl der Partitionen — Die Anzahl der Datensatzdateien, die Canvas als Ausgabe des Jobs schreibt.
-
Spalten auswählen — Sie können eine Teilmenge von Spalten aus den Daten auswählen, die in die Partitionen aufgenommen werden sollen.
-
-
Lassen Sie die Option Gesamten Datensatz verarbeiten ausgewählt, wenn Canvas Ihre Datenflusstransformationen auf Ihren gesamten Datensatz anwenden und das Ergebnis exportieren soll. Wenn Sie diese Option deaktivieren, wendet Canvas die Transformationen nur auf die Stichprobe Ihres Datensatzes an, die im interaktiven Data Wrangler-Datenfluss verwendet wird.
Anmerkung
Wenn Sie nur eine Stichprobe Ihrer Daten exportieren, verarbeitet Canvas Ihre Daten in der Anwendung und erstellt keinen Remote-Job für Sie.
-
Lassen Sie die Option Automatische Jobkonfiguration ausgewählt, wenn Canvas automatisch bestimmen soll, ob der Job mithilfe des Canvas-Anwendungsspeichers oder eines EMR serverlosen Jobs ausgeführt werden soll. Wenn Sie diese Option deaktivieren und Ihren Job manuell konfigurieren, können Sie wählen, ob Sie einen EMR serverlosen Auftrag oder einen SageMaker Verarbeitungsauftrag verwenden möchten. Anweisungen zur Konfiguration eines EMR serverlosen Auftrags oder eines SageMaker Verarbeitungsauftrags finden Sie im Abschnitt nach diesem Verfahren, bevor Sie Ihre Daten exportieren.
-
Wählen Sie Export aus.
Die folgenden Verfahren zeigen, wie Sie die Remote-Job-Einstellungen für EMR Serverless oder SageMaker Processing manuell konfigurieren, wenn Sie Ihren vollständigen Datensatz nach Amazon S3 exportieren.
Nach dem Export Ihrer Daten sollten Sie den vollständig verarbeiteten Datensatz am angegebenen Amazon S3 S3-Speicherort finden.