Daten exportieren - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Daten exportieren

Exportieren Sie Daten, um die Transformationen aus Ihrem Datenfluss auf den gesamten importierten Datensatz anzuwenden. Sie können jeden Knoten in Ihrem Datenfluss an die folgenden Speicherorte exportieren:

  • SageMaker Canvas-Datensatz

  • Amazon S3

Wenn Sie Modelle in Canvas trainieren möchten, können Sie Ihren vollständigen, transformierten Datensatz als Canvas-Datensatz exportieren. Wenn Sie Ihre transformierten Daten in maschinellen Lern-Workflows außerhalb von SageMaker Canvas verwenden möchten, können Sie Ihren Datensatz nach Amazon S3 exportieren.

In einen Canvas-Datensatz exportieren

Gehen Sie wie folgt vor, um ein SageMaker Canvas-Dataset aus einem Knoten in Ihrem Datenfluss zu exportieren.

Um einen Knoten in Ihrem Flow als SageMaker Canvas-Datensatz zu exportieren
  1. Navigieren Sie zu Ihrem Datenfluss.

  2. Wählen Sie das Ellipsensymbol neben dem Knoten aus, den Sie exportieren.

  3. Zeigen Sie im Kontextmenü mit der Maus auf Exportieren und wählen Sie dann Daten in Canvas-Datensatz exportieren aus.

  4. Geben Sie im Seitenbereich „In Canvas-Datensatz exportieren“ einen Datensatznamen für den neuen Datensatz ein.

  5. Lassen Sie die Option Gesamten Datensatz verarbeiten ausgewählt, wenn SageMaker Canvas Ihren gesamten Datensatz verarbeiten und speichern soll. Deaktivieren Sie diese Option, um die Transformationen nur auf die Beispieldaten anzuwenden, mit denen Sie in Ihrem Datenfluss arbeiten.

  6. Wählen Sie Export aus.

Sie sollten jetzt in der Lage sein, zur Datensatzseite der Canvas-Anwendung zu gehen und Ihren neuen Datensatz zu sehen.

Exportieren zu Amazon S3

Wenn Sie Ihre Daten nach Amazon S3 exportieren, können Sie skalieren, um Daten jeder Größe zu transformieren und zu verarbeiten. Canvas verarbeitet Ihre Daten automatisch lokal, wenn der Speicher der Anwendung die Größe Ihres Datensatzes bewältigen kann. Wenn Ihre Datensatzgröße die lokale Speicherkapazität von 5 GB überschreitet, initiiert Canvas in Ihrem Namen einen Remote-Job, um zusätzliche Rechenressourcen bereitzustellen und die Daten schneller zu verarbeiten. Standardmäßig verwendet Canvas Amazon EMR Serverless, um diese Remote-Jobs auszuführen. Sie können Canvas jedoch manuell so konfigurieren, dass entweder EMR Serverless oder ein SageMaker Verarbeitungsjob mit Ihren eigenen Einstellungen verwendet wird.

Anmerkung

Wenn Sie einen EMR serverlosen Job ausführen, erbt der Job standardmäßig die IAM Rolle, die KMS wichtigsten Einstellungen und die Tags Ihrer Canvas-Anwendung.

Im Folgenden werden die Optionen für Remote-Jobs in Canvas zusammengefasst:

  • EMRServerlos: Dies ist die Standardoption, die Canvas für Remote-Jobs verwendet. EMRServerless stellt Rechenressourcen zur Verarbeitung Ihrer Daten automatisch bereit und skaliert sie, sodass Sie sich keine Gedanken über die Auswahl der richtigen Rechenressourcen für Ihren Workload machen müssen. Weitere Informationen zu EMR Serverless finden Sie im EMRServerless User Guide.

  • SageMaker Verarbeitung: SageMaker Verarbeitungsaufträge bieten erweiterte Optionen und eine detaillierte Kontrolle über die Rechenressourcen, die für die Verarbeitung Ihrer Daten verwendet werden. Sie können beispielsweise den Typ und die Anzahl der Recheninstanzen angeben, den Job selbst konfigurieren VPC und den Netzwerkzugriff kontrollieren, Verarbeitungsaufträge automatisieren und vieles mehr. Weitere Informationen zur Automatisierung von Verarbeitungsaufträgen finden Sie unterErstellen Sie einen Zeitplan für die automatische Verarbeitung neuer Daten. Weitere allgemeine Informationen zur SageMaker Verarbeitung von Aufträgen finden Sie unterWorkloads zur Datentransformation mit SageMaker Verarbeitung.

Die folgenden Dateitypen werden beim Export nach Amazon S3 unterstützt:

  • CSV

  • Parquet

Lesen Sie die folgenden Seiten, um zu beginnen.

Voraussetzungen für EMR serverlose Jobs

Um einen Remote-Auftrag zu erstellen, der EMR serverlose Ressourcen verwendet, benötigen Sie die erforderlichen Berechtigungen. Sie können Berechtigungen entweder über die SageMaker Amazon-Domain oder die Benutzerprofileinstellungen gewähren oder Sie können die AWS IAM Rolle Ihres Benutzers manuell konfigurieren. Anweisungen, wie Sie Benutzern Berechtigungen für die Verarbeitung großer Datenmengen gewähren, finden Sie unterGewähren Sie Benutzern Berechtigungen zur Nutzung großer Datenmengen während des gesamten ML-Lebenszyklus.

Wenn Sie diese Richtlinien nicht konfigurieren möchten, aber dennoch große Datenmengen mit Data Wrangler verarbeiten müssen, können Sie alternativ einen SageMaker Verarbeitungsjob verwenden.

Verwenden Sie die folgenden Verfahren, um Ihre Daten nach Amazon S3 zu exportieren. Folgen Sie den optionalen erweiterten Schritten, um einen Remote-Job zu konfigurieren.

Um einen Knoten in Ihrem Flow nach Amazon S3 zu exportieren
  1. Navigieren Sie zu Ihrem Datenfluss.

  2. Wählen Sie das Ellipsensymbol neben dem Knoten aus, den Sie exportieren.

  3. Zeigen Sie im Kontextmenü mit der Maus auf Exportieren und wählen Sie dann Daten nach Amazon S3 exportieren aus.

  4. Im Seitenbereich Nach Amazon S3 exportieren können Sie den Datensatznamen für den neuen Datensatz ändern.

  5. Geben Sie für den S3-Standort den Amazon S3 S3-Standort ein, an den Sie den Datensatz exportieren möchten. Sie können den S3URI, den Alias oder ARN den S3-Standort oder den S3-Zugangspunkt eingeben. Weitere Informationen zu Zugriffspunkten finden Sie unter Verwaltung des Datenzugriffs mit Amazon S3 S3-Zugriffspunkten im Amazon S3 S3-Benutzerhandbuch.

  6. (Optional) Geben Sie für die erweiterten Einstellungen Werte für die folgenden Felder an:

    1. Dateityp — Das Dateiformat Ihrer exportierten Daten.

    2. Trennzeichen — Das Trennzeichen, das zum Trennen von Werten in der Datei verwendet wird.

    3. Komprimierung — Die Komprimierungsmethode, die verwendet wird, um die Dateigröße zu reduzieren.

    4. Anzahl der Partitionen — Die Anzahl der Datensatzdateien, die Canvas als Ausgabe des Jobs schreibt.

    5. Spalten auswählen — Sie können eine Teilmenge von Spalten aus den Daten auswählen, die in die Partitionen aufgenommen werden sollen.

  7. Lassen Sie die Option Gesamten Datensatz verarbeiten ausgewählt, wenn Canvas Ihre Datenflusstransformationen auf Ihren gesamten Datensatz anwenden und das Ergebnis exportieren soll. Wenn Sie diese Option deaktivieren, wendet Canvas die Transformationen nur auf die Stichprobe Ihres Datensatzes an, die im interaktiven Data Wrangler-Datenfluss verwendet wird.

    Anmerkung

    Wenn Sie nur eine Stichprobe Ihrer Daten exportieren, verarbeitet Canvas Ihre Daten in der Anwendung und erstellt keinen Remote-Job für Sie.

  8. Lassen Sie die Option Automatische Jobkonfiguration ausgewählt, wenn Canvas automatisch bestimmen soll, ob der Job mithilfe des Canvas-Anwendungsspeichers oder eines EMR serverlosen Jobs ausgeführt werden soll. Wenn Sie diese Option deaktivieren und Ihren Job manuell konfigurieren, können Sie wählen, ob Sie einen EMR serverlosen Auftrag oder einen SageMaker Verarbeitungsauftrag verwenden möchten. Anweisungen zur Konfiguration eines EMR serverlosen Auftrags oder eines SageMaker Verarbeitungsauftrags finden Sie im Abschnitt nach diesem Verfahren, bevor Sie Ihre Daten exportieren.

  9. Wählen Sie Export aus.

Die folgenden Verfahren zeigen, wie Sie die Remote-Job-Einstellungen für EMR Serverless oder SageMaker Processing manuell konfigurieren, wenn Sie Ihren vollständigen Datensatz nach Amazon S3 exportieren.

EMR Serverless

Gehen Sie wie folgt vor, um einen EMR serverlosen Job beim Export nach Amazon S3 zu konfigurieren:

  1. Deaktivieren Sie im Seitenbereich Nach Amazon S3 exportieren die Option Automatische Jobkonfiguration.

  2. Wählen Sie EMRServerlos aus.

  3. Geben Sie unter Jobname einen Namen für Ihren EMR Serverless-Job ein. Der Name kann Buchstaben, Zahlen, Bindestriche und Unterstriche enthalten.

  4. Geben Sie IAMunter Rolle die Ausführungsrolle des Benutzers IAM ein. Diese Rolle sollte über die erforderlichen Berechtigungen verfügen, um EMR serverlose Anwendungen auszuführen. Weitere Informationen finden Sie unter Gewähren Sie Benutzern Berechtigungen zur Nutzung großer Datenmengen während des gesamten ML-Lebenszyklus.

  5. (Optional) Geben Sie als KMSSchlüssel die Schlüssel-ID oder einen ARN an, um die Jobprotokolle AWS KMS key zu verschlüsseln. Wenn Sie keinen Schlüssel eingeben, verwendet Canvas einen Standardschlüssel für EMR Serverless.

  6. (Optional) Geben Sie für die Monitoring-Konfiguration den Namen einer Amazon CloudWatch Logs-Protokollgruppe ein, in der Sie Ihre Protokolle veröffentlichen möchten.

  7. (Optional) Fügen Sie EMR unter Tags dem Serverless-Job, der aus Schlüssel-Wert-Paaren besteht, Metadaten-Tags hinzu. Diese Tags können verwendet werden, um Jobs zu kategorisieren und nach ihnen zu suchen.

  8. Wählen Sie Export, um den Auftrag zu starten.

SageMaker Processing

Gehen Sie wie folgt vor, um einen SageMaker Verarbeitungsauftrag beim Export nach Amazon S3 zu konfigurieren:

  1. Deaktivieren Sie im Seitenbereich Nach Amazon S3 exportieren die Option Automatische Jobkonfiguration.

  2. Wählen Sie SageMaker Verarbeitung aus.

  3. Geben Sie unter Jobname einen Namen für Ihren SageMaker Verarbeitungsjob ein.

  4. Wählen Sie unter Instanztyp den Typ der Recheninstanz aus, um den Verarbeitungsjob auszuführen.

  5. Geben Sie unter Anzahl der Instanzen die Anzahl der Recheninstanzen an, die gestartet werden sollen.

  6. Geben Sie unter IAMRolle die IAM Ausführungsrolle des Benutzers ein. Diese Rolle sollte über die erforderlichen Berechtigungen verfügen SageMaker , um Verarbeitungsaufträge in Ihrem Namen zu erstellen und auszuführen. Diese Berechtigungen werden gewährt, wenn Sie die AmazonSageMakerFullAccessRichtlinie mit Ihrer IAM Rolle verknüpft haben.

  7. Geben Sie unter Volumengröße die Speichergröße in GB für das ML-Speichervolume ein, das jeder Verarbeitungsinstanz zugeordnet ist. Wählen Sie die Größe auf der Grundlage Ihrer erwarteten Eingabe- und Ausgabedatengröße.

  8. (Optional) Geben Sie unter KMS Volume-Schlüssel einen KMS Schlüssel zum Verschlüsseln des Speichervolumes an. Wenn Sie keinen Schlüssel angeben, wird der standardmäßige EBS Amazon-Verschlüsselungsschlüssel verwendet.

  9. (Optional) Geben Sie unter KMSSchlüssel einen KMS Schlüssel an, um die Eingabe- und Ausgabedatenquellen von Amazon S3 zu verschlüsseln, die vom Verarbeitungsauftrag verwendet werden.

  10. (Optional) Gehen Sie für die Spark-Speicherkonfiguration wie folgt vor:

    1. Geben Sie den Treiberspeicher in MB für den Spark-Treiberknoten ein, der die Jobkoordination und -planung übernimmt.

    2. Geben Sie Executor-Speicher in MB für die Spark-Executor-Knoten ein, die einzelne Aufgaben im Job ausführen.

  11. (Optional) Gehen Sie für die Netzwerkkonfiguration wie folgt vor:

    1. Geben Sie unter Subnetzkonfiguration die IDs VPC Subnetze ein, in denen die Verarbeitungsinstanzen gestartet werden sollen. Standardmäßig verwendet der Job Ihre Standardeinstellungen. VPC

    2. Geben Sie für die Sicherheitsgruppenkonfiguration die IDs Sicherheitsgruppen ein, mit denen die Verbindungsregeln für eingehende und ausgehende Verbindungen gesteuert werden sollen.

    3. Aktivieren Sie die Option Verschlüsselung des Datenverkehrs zwischen Containern aktivieren, um die Netzwerkkommunikation zwischen Verarbeitungscontainern während des Jobs zu verschlüsseln.

  12. (Optional) Für Associate-Zeitpläne können Sie einen EventBridge Amazon-Zeitplan erstellen wählen, damit der Verarbeitungsjob in wiederkehrenden Intervallen ausgeführt wird. Wählen Sie Neuen Zeitplan erstellen und füllen Sie das Dialogfeld aus. Weitere Informationen zum Ausfüllen dieses Abschnitts und zum planmäßigen Ausführen von Verarbeitungsaufträgen finden Sie unterErstellen Sie einen Zeitplan für die automatische Verarbeitung neuer Daten.

  13. (Optional) Fügen Sie Tags als Schlüssel-Wert-Paare hinzu, damit Sie Verarbeitungsaufträge kategorisieren und nach ihnen suchen können.

  14. Wählen Sie Exportieren, um den Verarbeitungsjob zu starten.

Nach dem Export Ihrer Daten sollten Sie den vollständig verarbeiteten Datensatz am angegebenen Amazon S3 S3-Speicherort finden.