Erstellen eines Datensatzes - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Erstellen eines Datensatzes

Anmerkung

Wenn Sie Datensätze mit mehr als 5 GB in Amazon SageMaker Canvas importieren, empfehlen wir Ihnen, die Data Wrangler-Funktion in Canvas zu verwenden, um einen Datenfluss zu erstellen. Data Wrangler unterstützt erweiterte Datenvorbereitungsfunktionen wie das Zusammenfügen und Verketten von Daten. Nachdem Sie einen Datenfluss erstellt haben, können Sie Ihren Datenfluss als Canvas-Datensatz exportieren und mit der Erstellung eines Modells beginnen. Weitere Informationen finden Sie unter Exportieren, um ein Modell zu erstellen.

In den folgenden Abschnitten wird beschrieben, wie Sie einen Datensatz in Amazon SageMaker Canvas erstellen. Für benutzerdefinierte Modelle können Sie Datensätze für Tabellen- und Bilddaten erstellen. Für Ready-to-use Modelle können Sie Tabellen- und Bilddatensätze sowie Dokumentdatensätze verwenden. Wählen Sie Ihren Arbeitsablauf anhand der folgenden Informationen aus:

Ein Datensatz kann aus mehreren Dateien bestehen. Beispielsweise könnten Sie mehrere Dateien mit Inventardaten im CSV Format haben. Sie können diese Dateien zusammen als Datensatz hochladen, sofern das Schema (oder die Spaltennamen und Datentypen) der Dateien übereinstimmen.

Canvas unterstützt auch die Verwaltung mehrerer Versionen Ihres Datensatzes. Wenn Sie einen Datensatz erstellen, wird die erste Version als V1 bezeichnet. Sie können eine neue Version Ihres Datensatzes erstellen, indem Sie Ihren Datensatz aktualisieren. Sie können eine manuelle Aktualisierung durchführen oder einen automatisierten Zeitplan für die Aktualisierung Ihres Datensatzes mit neuen Daten einrichten. Weitere Informationen finden Sie unter Aktualisieren eines Datensatzes.

Wenn Sie Ihre Daten in Canvas importieren, stellen Sie sicher, dass sie die Anforderungen in der folgenden Tabelle erfüllen. Die Einschränkungen hängen vom Modelltyp ab, den Sie erstellen.

Limit 2-Kategorie-, 3+-Kategorie-, numerische und Zeitreihenmodelle Modelle zur Textvorhersage Modelle zur Bildvorhersage *Dokumentdaten für Modelle Ready-to-use

Unterstützte Dateitypen

CSVund Parquet (lokaler Upload, Amazon S3 oder Datenbanken)

JSON(Datenbanken)

CSVund Parquet (lokaler Upload, Amazon S3 oder Datenbanken)

JSON(Datenbanken)

JPG, PNG

PDF, JPG, PNG, TIFF

Maximale Dateigröße

Lokaler Upload: 5 GB

Datenquellen: PBs

Lokaler Upload: 5 GB

Datenquellen: PBs

30 MB pro Image

5 MB pro Dokument

Maximale Anzahl von Dateien, die Sie gleichzeitig hochladen können

30

30

N/A

Maximale Anzahl von Spalten

1.000

1.000

N/A

N/A

Maximale Anzahl von Einträgen (Zeilen, Bilder oder Dokumente) für Schnellaufbau

N/A

7500 Zeilen

5000 Bilder

N/A

Maximale Anzahl von Einträgen (Zeilen, Bilder oder Dokumente) für Standardaufbau

N/A

150.000 Zeilen

180.000 Bilder

N/A

Mindestanzahl von Einträgen (Zeilen) für Schnellaufbau

Kategorie 2: 500 Zeilen

Kategorie 3+, numerisch, Zeitreihen: N/A

N/A

N/A

Mindestanzahl von Einträgen (Zeilen, Bilder oder Dokumente) für Standardaufbau

250 Zeilen

50 Reihen

50 Bilder

N/A

Mindestanzahl von Einträgen (Zeilen oder Bilder) pro Etikett

N/A

25 Reihen

25 Reihen

N/A

Minimale Anzahl von Beschriftungen

Kategorie 2: 2

Kategorie 3+: 3

Numerisch, Zeitreihen: N/A

2

2

N/A

Mindeststichprobengröße für Zufallsstichproben

500

N/A

N/A

Maximaler Stichprobenumfang für Zufallsstichproben

200 000

N/A

N/A

Maximale Anzahl von Beschriftungen

Kategorie 2: 2

Kategorie 3+, numerisch, Zeitreihen: N/A

1000

1000

N/A

*Dokumentdaten werden derzeit nur für Ready-to-use Modelle unterstützt, die Dokumentdaten akzeptieren. Sie können kein benutzerdefiniertes Modell mit Dokumentdaten erstellen.

Beachten Sie auch die folgenden Einschränkungen:

  • Wenn Sie Daten aus einem Amazon S3 S3-Bucket importieren, stellen Sie sicher, dass Ihr Amazon S3 S3-Bucket-Name kein.. Wenn Ihr Bucket-Name ein enthält., können Fehler auftreten, wenn Sie versuchen, Daten in Canvas zu importieren.

  • Für tabellarische Daten erlaubt Canvas nicht die Auswahl von Dateien mit anderen Erweiterungen als .csv, .parquet, .parq und .pqt sowohl für den lokalen Upload als auch für den Amazon S3 S3-Import. CSVDateien können jedes gängige oder benutzerdefinierte Trennzeichen verwenden und dürfen keine Zeilenumbruchzeichen enthalten, es sei denn, sie bezeichnen eine neue Zeile.

  • Beachten Sie bei tabellarischen Daten, die Parquet-Dateien verwenden, Folgendes:

    • Parquet-Dateien können keine komplexen Typen wie Karten und Listen enthalten.

    • Die Spaltennamen von Parquet-Dateien dürfen keine Leerzeichen enthalten.

    • Wenn Sie die Komprimierung verwenden, müssen Parquet-Dateien entweder den Komprimierungstyp Gzip oder Snappy verwenden. Weitere Informationen zu den oben genannten Komprimierungstypen finden Sie in der gzip-Dokumentation und der Snappy-Dokumentation.

  • Wenn Sie über Bilder ohne Beschriftung verfügen, müssen Sie diese beschriften, bevor Sie Ihr Modell erstellen. Informationen zum Zuweisen von Beschriftungen zu Bildern in der Canvas-Anwendung finden Sie unterBearbeiten Sie einen Bilddatensatz.

  • Wenn Sie automatische Datensatzaktualisierungen oder automatische Konfigurationen für Batch-Vorhersagen einrichten, können Sie in Ihrer Canvas-Anwendung insgesamt nur 20 Konfigurationen erstellen. Weitere Informationen finden Sie unter Wie verwaltet man Automatisierungen.

Nachdem Sie einen Datensatz importiert haben, können Sie Ihre Datensätze jederzeit auf der Seite Datensätze anzeigen.

Importieren von Tabellendaten

Mit tabellarischen Datensätzen können Sie Modelle für kategoriale, numerische Prognosen, Zeitreihenprognosen und Textvorhersagen erstellen. Überprüfen Sie die Tabelle mit den Einschränkungen im vorherigen Abschnitt Datensatz importieren, um sicherzustellen, dass Ihre Daten die Anforderungen für tabellarische Daten erfüllen.

Gehen Sie wie folgt vor, um einen tabellarischen Datensatz in Canvas zu importieren:

  1. Öffnen Sie Ihre SageMaker Canvas-Anwendung.

  2. Wählen Sie im linken Navigationsbereich die Option Datensätze aus.

  3. Wählen Sie Daten importieren.

  4. Wählen Sie im Dropdownmenü die Option Tabellarisch aus.

  5. Geben Sie im Popup-Dialogfeld im Feld Datensatzname einen Namen für den Datensatz ein und wählen Sie Erstellen aus.

  6. Öffnen Sie auf der Seite Tabellarischen Datensatz erstellen das Dropdownmenü Datenquelle.

  7. Wählen Sie Ihre Datenquelle aus:

    • Um Dateien von Ihrem Computer hochzuladen, wählen Sie Lokaler Upload.

    • Um Daten aus einer anderen Quelle zu importieren, z. B. einem Amazon-S3-Bucket oder einer Snowflake-Datenbank, suchen Sie in der Suchdatenquellenleiste nach Ihrer Datenquelle. Wählen Sie dann die Kachel für die gewünschte Datenquelle aus.

      Anmerkung

      Sie können nur Daten aus den Kacheln importieren, die über eine aktive Verbindung verfügen. Wenn Sie eine Verbindung zu einer Datenquelle herstellen möchten, die für Sie nicht verfügbar ist, wenden Sie sich an Ihren Administrator. Wenn Sie Administrator sind, finden Sie weitere Informationen unter Verbinden zu Datenquellen.

    Das folgende Bildschirmfoto zeigt das Dropdown-Menü Datenquelle.

    Screenshot, der das Dropdown-Menü Datenquelle und eine Suche nach einer Datenquelle in der Suchleiste zeigt.
  8. (Optional) Wenn Sie zum ersten Mal eine Verbindung zu einer Amazon Redshift- oder Snowflake-Datenbank herstellen, wird ein Dialogfeld zum Herstellen einer Verbindung angezeigt. Füllen Sie das Dialogfeld mit Ihren Anmeldeinformationen aus und wählen Sie Verbindung erstellen. Wenn Sie bereits über eine Verbindung verfügen, wählen Sie Ihre Verbindung aus.

  9. Wählen Sie aus Ihrer Datenquelle die zu importierenden Dateien aus. Für den lokalen Upload und Import aus Amazon S3 können Sie Dateien auswählen. Nur für Amazon S3 haben Sie auch die Möglichkeit, den S3URI, den Alias oder Ihren Bucket oder ARN S3-Zugriffspunkt direkt in das Eingabe-S3-Endpunktfeld einzugeben und dann die zu importierenden Dateien auszuwählen. Für Datenbankquellen können Sie drag-and-drop Datentabellen im linken Navigationsbereich aufrufen.

  10. (Optional) Für tabellarische Datenquellen, die SQL Abfragen unterstützen (wie Amazon Redshift, Amazon Athena oder Snowflake), können Sie Bearbeiten in wählen, um Abfragen SQL zu stellen, bevor Sie sie importieren. SQL

    Der folgende Screenshot zeigt die SQLBearbeitungsansicht für eine Amazon Athena Athena-Datenquelle.

    Screenshot, der eine SQL Abfrage in der SQLBearbeitungsansicht für Amazon Athena Athena-Daten zeigt.
  11. Wählen Sie „Datensatz in Vorschau“, um eine Vorschau Ihrer Daten anzuzeigen, bevor Sie sie importieren.

  12. Geben Sie in den Importeinstellungen einen Datensatznamen ein oder verwenden Sie den Standard-Datensatznamen.

  13. (Optional) Für Daten, die Sie aus Amazon S3 importieren, werden Ihnen die erweiterten Einstellungen angezeigt, und Sie können die folgenden Felder ausfüllen:

    1. Aktivieren Sie die Option Erste Zeile als Kopfzeile verwenden, wenn Sie die erste Zeile Ihres Datensatzes als Spaltennamen verwenden möchten. Wenn Sie mehrere Dateien ausgewählt haben, gilt dies für jede Datei.

    2. Wenn Sie eine CSV Datei importieren, wählen Sie in der Dropdownliste Dateikodierung (CSV) die Kodierung Ihrer Datensatzdatei aus. UTF-8ist die Standardeinstellung.

    3. Wählen Sie in der Dropdownliste Trennzeichen das Trennzeichen aus, das die einzelnen Zellen in Ihren Daten voneinander trennt. Das Standardtrennzeichen ist. , Sie können auch ein benutzerdefiniertes Trennzeichen angeben.

    4. Wählen Sie Mehrzeilenerkennung, wenn Sie möchten, dass Canvas Ihren gesamten Datensatz manuell nach mehrzeiligen Zellen analysiert. Standardmäßig ist diese Option nicht ausgewählt und Canvas bestimmt anhand einer Stichprobe Ihrer Daten, ob die Unterstützung für mehrere Zeilen verwendet werden soll oder nicht. Canvas erkennt jedoch möglicherweise keine mehrzeiligen Zellen in der Stichprobe. Wenn Sie mehrzeilige Zellen haben, empfehlen wir Ihnen, die Option Mehrzeilige Erkennung auszuwählen, um Canvas zu zwingen, Ihren gesamten Datensatz auf mehrzeilige Zellen zu überprüfen.

  14. Wenn Sie bereit sind, Ihre Daten zu importieren, wählen Sie Datensatz erstellen.

Während Ihr Datensatz in Canvas importiert wird, können Sie sehen, dass Ihre Datensätze auf der Seite Datensätze aufgelistet sind. Auf dieser Seite können Sie Anzeigen Ihrer Datensatzdaten.

Wenn der Status Ihres Datensatzes als Ready angezeigt wird, hat Canvas Ihre Daten erfolgreich importiert und Sie können mit der Erstellung eines Modells fortfahren.

Wenn Sie eine Verbindung zu einer Datenquelle haben, z. B. zu einer Amazon Redshift-Datenbank oder einem SaaS-Connector, können Sie zu dieser Verbindung zurückkehren. Für Amazon Redshift und Snowflake können Sie eine weitere Verbindung hinzufügen, indem Sie einen weiteren Datensatz erstellen, zur Seite Daten importieren zurückkehren und die Datenquellen-Kachel für diese Verbindung auswählen. Im Dropdown-Menü können Sie die vorherige Verbindung öffnen oder Verbindung hinzufügen wählen.

Anmerkung

Für SaaS-Plattformen können Sie nur eine Verbindung pro Datenquelle haben.

Importieren von Bilddaten

Mit Bilddatensätzen können Sie benutzerdefinierte Modelle zur Bildvorhersage mit einer einzigen Beschriftung erstellen, die eine Beschriftung für ein Bild vorhersagen. Lesen Sie sich die Einschränkungen im vorherigen Abschnitt Datensatz importieren durch, um sicherzustellen, dass Ihr Bilddatensatz die Anforderungen für Bilddaten erfüllt.

Anmerkung

Sie können nur Bilddatensätze aus einem lokalen Datei-Upload oder einem Amazon-S3-Bucket importieren. Außerdem müssen Sie für Bilddatensätze mindestens 25 Bilder pro Beschriftung haben.

Gehen Sie wie folgt vor, um einen Bilddatensatz in Canvas zu importieren:

  1. Öffnen Sie Ihre SageMaker Canvas-Anwendung.

  2. Wählen Sie im linken Navigationsbereich die Option Datensätze aus.

  3. Wählen Sie Daten importieren.

  4. Wählen Sie im Dropdown-Menü Bild aus.

  5. Geben Sie im Popup-Dialogfeld im Feld Datensatzname einen Namen für den Datensatz ein und wählen Sie Erstellen aus.

  6. Öffnen Sie auf der Importseite das Dropdown-Menü Datenquelle.

  7. Wählen Sie Ihre -Datenquelle aus. Um eine Datei vom Computer hochzuladen, wählen Sie Lokales Hochladen. Um Dateien aus Amazon S3 zu importieren, wählen Sie Amazon S3 aus.

  8. Wählen Sie auf Ihrem Computer oder Amazon-S3-Bucket die Bilder oder Ordner mit Bildern aus, die Sie hochladen möchten.

  9. Wenn Sie bereit sind, Ihre Daten zu importieren, wählen Sie Daten importieren.

Während Ihr Datensatz in Canvas importiert wird, können Sie sehen, dass Ihre Datensätze auf der Seite Datensätze aufgelistet sind. Auf dieser Seite können Sie Anzeigen Ihrer Datensatzdaten.

Wenn der Status Ihres Datensatzes als Ready angezeigt wird, hat Canvas Ihre Daten erfolgreich importiert und Sie können mit der Erstellung eines Modells fortfahren.

Wenn Sie Ihr Modell erstellen, können Sie Ihren Bilddatensatz bearbeiten und Beschriftungen zuweisen oder neu zuweisen, Bilder hinzufügen oder Bilder aus Ihrem Datensatz löschen. Weitere Informationen zum Bearbeiten Ihres Bilddatensatzes finden Sie unter Bearbeiten Sie einen Bilddatensatz.

Importieren von Dokumentdaten

Die Ready-to-use Modelle für die Kostenanalyse, die Analyse von Ausweisdokumenten, die Dokumentenanalyse und die Dokumentenabfrage unterstützen Dokumentendaten. Sie können kein benutzerdefiniertes Modell mit Dokumentdaten erstellen.

Mit Dokumentdatensätzen können Sie Prognosen für Ready-to-use Modelle zur Kostenanalyse, Ausweisanalyse, Dokumentenanalyse und Dokumentenabfrage generieren. Sehen Sie sich die Tabelle mit den Einschränkungen in Erstellen eines Datensatzes diesem Abschnitt an, um sicherzustellen, dass Ihr Dokumentdatensatz die Anforderungen für Dokumentdaten erfüllt.

Anmerkung

Sie können nur Dokumentdatensätze aus einem lokalen Datei-Upload oder einem Amazon-S3-Bucket importieren.

Gehen Sie wie folgt vor, um einen Dokumentdatenbestand in Canvas zu importieren:

  1. Öffnen Sie Ihre SageMaker Canvas-Anwendung.

  2. Wählen Sie im linken Navigationsbereich die Option Datensätze aus.

  3. Wählen Sie Daten importieren.

  4. Wählen Sie im Dropdown-Menü Dokument aus.

  5. Geben Sie im Popup-Dialogfeld im Feld Datensatzname einen Namen für den Datensatz ein und wählen Sie Erstellen aus.

  6. Öffnen Sie auf der Importseite das Dropdown-Menü Datenquelle.

  7. Wählen Sie Ihre -Datenquelle aus. Um eine Datei vom Computer hochzuladen, wählen Sie Lokales Hochladen. Um Dateien aus Amazon S3 zu importieren, wählen Sie Amazon S3 aus.

  8. Wählen Sie auf Ihrem Computer oder Amazon-S3-Bucket die Dokumentdateien aus, die Sie hochladen möchten.

  9. Wenn Sie bereit sind, Ihre Daten zu importieren, wählen Sie Daten importieren.

Während Ihr Datensatz in Canvas importiert wird, können Sie sehen, dass Ihre Datensätze auf der Seite Datensätze aufgelistet sind. Auf dieser Seite können Sie Anzeigen Ihrer Datensatzdaten.

Wenn der Status Ihres Datensatzes als Ready angezeigt wird, hat Canvas Ihre Daten erfolgreich importiert.

Auf der Seite Datensätze können Sie Ihren Datensatz auswählen, um ihn in der Vorschau anzuzeigen. Dabei werden Ihnen bis zu den ersten 100 Dokumente Ihres Datensatzes angezeigt.

Anzeigen Ihrer Datensatzdaten

Für jeden Ihrer Datensätze können Sie alle Dateien in einem Datensatz, den Versionsverlauf des Datensatzes und alle Konfigurationen für die auto Aktualisierung des Datensatzes anzeigen. Auf der Seite Datensätze können Sie auch Aktionen wie Aktualisieren eines Datensatzes oder Wie funktionieren benutzerdefinierte Modelle initiieren.

Um die Details für einen Datensatz anzuzeigen, führen Sie die folgenden Schritte aus:

  1. Öffnen Sie die SageMaker Canvas-Anwendung.

  2. Wählen Sie im linken Navigationsbereich die Option Datensätze aus.

  3. Wählen Sie Ihren Datensatz aus der Liste der Datensätze aus.

Auf der Registerkarte Daten können Sie eine Vorschau Ihrer Daten sehen. Wenn Sie Datensatzdetails wählen, können Sie alle Dateien sehen, die Teil Ihres Datensatzes sind. Wählen Sie eine Datei aus, um nur die Daten aus dieser Datei in der Vorschau zu sehen. Bei Bilddatensätzen zeigt Ihnen die Vorschau nur die ersten 100 Bilder Ihres Datensatzes.

Auf der Registerkarte Versionsverlauf sehen Sie eine Liste aller Versionen Ihres Datensatzes. Bei jeder Aktualisierung eines Datensatzes wird eine neue Version erstellt. Weitere Informationen zum Aktualisieren eines Datensatzes finden Sie unter Aktualisieren eines Datensatzes. Der folgende Screenshot zeigt die Registerkarte Versionsverlauf in der Canvas-Anwendung.

Screenshot der Registerkarte Versionsverlauf für einen Datensatz mit einer Liste der Datensatzversionen.

Auf der Registerkarte Automatische Updates können Sie automatische Updates für den Datensatz aktivieren und eine Konfiguration einrichten, um Ihren Datensatz regelmäßig zu aktualisieren. Weitere Informationen zum Einrichten von automatischen Updates für einen Datensatz finden Sie unter Konfigurieren Sie automatische Updates für einen Datensatz. Der folgende Screenshot zeigt die Registerkarte Automatische Updates mit aktivierten auto Updates und einer Liste der automatischen Aktualisierungsaufträge, die für den Datensatz ausgeführt wurden.

Die Registerkarte auto Updates für den Datensatz zeigt die aktivierten auto Updates und eine Liste von Autoaktualisierungsaufträgen.