Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Erstellen Sie einen Datenfluss
Verwenden Sie einen Data Wrangler-Fluss in SageMaker Canvas oder einen Datenfluss, um eine Datenvorbereitungspipeline zu erstellen und zu ändern. Wir empfehlen, Data Wrangler für Datensätze zu verwenden, die größer als 5 GB sind.
Verwenden Sie zunächst das folgende Verfahren, um Ihre Daten in einen Datenfluss zu importieren.
-
Öffnen Sie SageMaker Canvas.
-
Wählen Sie in der linken Navigationsleiste Data Wrangler aus.
-
Wählen Sie Importieren und vorbereiten.
-
Wählen Sie im Drop-down-Menü entweder Tabellarisch oder Bild aus.
-
Wählen Sie unter Datenquelle auswählen Ihre Datenquelle aus und wählen Sie die Daten aus, die Sie importieren möchten. Sie haben die Möglichkeit, bis zu 30 Dateien oder einen Ordner auszuwählen. Wenn Sie bereits einen Datensatz in Canvas importiert haben, wählen Sie Canvas-Datensatz als Quelle. Stellen Sie andernfalls eine Verbindung zu einer Datenquelle wie Amazon S3 oder Snowflake her und durchsuchen Sie Ihre Daten. Informationen zum Herstellen einer Verbindung mit einer Datenquelle oder zum Importieren von Daten finden Sie auf den folgenden Seiten:
-
Nachdem Sie die Daten ausgewählt haben, die Sie importieren möchten, wählen Sie Weiter.
-
(Optional) Erweitern Sie beim Import eines tabellarischen Datensatzes den Abschnitt Einstellungen importieren das Dropdownmenü Erweitert. Sie können die folgenden erweiterten Einstellungen für Datenflussimporte angeben:
Stichprobenmethode — Wählen Sie die Stichprobenmethode und den Stichprobenumfang aus, die Sie verwenden möchten. Weitere Informationen darüber, wie Sie Ihre Stichprobe ändern können, finden Sie im AbschnittBearbeiten Sie die Konfiguration der Datenflussstichprobe.
Dateikodierung (CSV) — Wählen Sie die Kodierung Ihrer Datensatzdatei aus.
UTF-8
ist die Standardeinstellung.Erste Zeilen überspringen — Geben Sie die Anzahl der Zeilen ein, die Sie überspringen möchten, wenn Sie am Anfang Ihres Datensatzes redundante Zeilen haben.
Trennzeichen — Wählen Sie das Trennzeichen aus, das die einzelnen Elemente in Ihren Daten voneinander trennt. Sie können auch ein benutzerdefiniertes Trennzeichen angeben.
Mehrzeilige Erkennung — Wählen Sie diese Option, wenn Sie möchten, dass Canvas Ihren gesamten Datensatz manuell nach mehrzeiligen Zellen analysiert. Canvas bestimmt anhand einer Stichprobe Ihrer Daten, ob die Unterstützung für mehrere Zeilen verwendet werden soll oder nicht. Canvas erkennt jedoch möglicherweise keine mehrzeiligen Zellen in der Stichprobe. In diesem Fall empfehlen wir Ihnen, die Option Mehrzeilige Erkennung auszuwählen, um Canvas zu zwingen, Ihren gesamten Datensatz auf mehrzeilige Zellen zu überprüfen.
-
Wählen Sie Importieren aus.
Sie sollten jetzt über einen neuen Datenfluss verfügen, und Sie können mit dem Hinzufügen von Transformationsschritten und Analysen beginnen.