Wie funktionieren benutzerdefinierte Modelle - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Wie funktionieren benutzerdefinierte Modelle

Verwenden Sie Amazon SageMaker Canvas, um ein benutzerdefiniertes Modell für den Datensatz zu erstellen, den Sie importiert haben. Verwenden Sie das Modell, das Sie erstellt haben, um Vorhersagen für neue Daten zu treffen. SageMaker Canvas verwendet die Informationen im Datensatz, um bis zu 250 Modelle zu erstellen und das Modell auszuwählen, das die beste Leistung erbringt.

Wenn Sie mit der Erstellung eines Modells beginnen, empfiehlt Canvas automatisch einen oder mehrere Modelltypen. Modelltypen lassen sich in eine der folgenden Kategorien einteilen:

  • Numerische Vorhersage – Dies wird beim Machine Learning als Regression bezeichnet. Verwenden Sie den numerischen Prognosemodelltyp, wenn Sie Vorhersagen für numerische Daten treffen möchten. Möglicherweise möchten Sie den Preis von Häusern anhand von Features wie der Quadratmeterzahl des Hauses vorhersagen.

  • Kategorische Vorhersage – Dies wird beim Machine Learning als Klassifizierung bezeichnet. Wenn Sie Daten in Gruppen kategorisieren möchten, verwenden Sie die Typen von kategorialen Vorhersagemodellen:

    • Vorhersage mit 2 Kategorien – Verwenden Sie den Vorhersagemodelltyp 2 Kategorien (beim Machine Learning auch als binäre Klassifikation bezeichnet), wenn Sie zwei Kategorien haben, die Sie für Ihre Daten vorhersagen möchten. Beispielsweise können Sie feststellen, ob ein Kunde wahrscheinlich abwandern wird.

    • Vorhersage für 3 oder mehr Kategorien – Verwenden Sie den Modelltyp für die Vorhersage von Kategorien ab 3 oder mehr (beim Machine Learning auch als Klassifizierung mit mehreren Klassen bezeichnet), wenn Sie drei oder mehr Kategorien haben, die Sie für Ihre Daten vorhersagen möchten. So können Sie z. B. den Kreditstatus eines Kunden anhand von Features wie früheren Zahlungen vorhersagen.

  • Zeitreihenprognosen – Verwenden Sie Zeitreihenprognosen, wenn Sie Vorhersagen über einen bestimmten Zeitraum treffen möchten. So können Sie beispielsweise die Anzahl der Artikel vorhersagen, die Sie im nächsten Quartal verkaufen werden. Informationen zu Zeitreihenprognosen finden Sie unter Zeitreihenprognosen in Amazon SageMaker Canvas.

  • Bildvorhersage – Verwenden Sie den Modelltyp für die Bildvorhersage mit einer einzigen Beschriftung (beim Machine Learning auch als Bildklassifizierung mit einfacher Bezeichnung bezeichnet), wenn Sie Bildern Beschriftungen zuweisen möchten. So können Sie z. B. verschiedene Arten von Herstellungsfehlern in Bildern Ihres Produkts klassifizieren.

  • Textvorhersage – Verwenden Sie den Modelltyp für Textvorhersagen mit mehreren Kategorien (beim Machine Learning auch als Textklassifizierung mit mehreren Klassen bezeichnet), wenn Sie Textpassagen Beschriftungen zuweisen möchten. Angenommen, Sie verfügen über einen Datensatz mit Kundenrezensionen für ein Produkt und möchten ermitteln, ob Kunden das Produkt möchten oder nicht. Sie könnten Ihr Modell vorhersagen lassen, ob eine bestimmte Textpassage Positive, Negative, oder Neutral ist.

Eine Tabelle der unterstützten Eingabedatentypen für jeden Modelltyp finden Sie unter Benutzerdefinierte Modelle.

Für jedes tabellarische Datenmodell, das Sie erstellen (das numerische, kategoriale, Zeitreihenprognosen und Textvorhersagemodelle umfasst), wählen Sie die Zielspalte aus. Die Zielspalte ist die Spalte, die die Informationen enthält, die Sie vorhersagen möchten. Wenn Sie beispielsweise ein Modell erstellen, um vorherzusagen, ob Personen ihre Abonnements gekündigt haben, enthält die Zielspalte Datenpunkte, die entweder ein yes oder ein no zum Kündigungsstatus einer Person sind.

Bei Modellen zur Bildvorhersage erstellen Sie das Modell mit einem Datensatz von Bildern, denen Beschriftungen zugewiesen wurden. Für die unbeschrifteten Bilder, die Sie bereitstellen, prognostiziert das Modell eine Beschriftung. Wenn Sie beispielsweise ein Modell erstellen, um vorherzusagen, ob es sich bei dem Bild um eine Katze oder einen Hund handelt, geben Sie beim Erstellen des Modells Bilder an, die als Katzen oder Hunde gekennzeichnet sind. Dann kann das Modell unbeschriftete Bilder akzeptieren und sie entweder als Katzen oder Hunde vorhersagen.

Was geschieht, wenn Sie ein Modell erstellen

Um Ihr Modell zu erstellen, können Sie entweder einen Schnellaufbau oder einen Standardaufbau wählen. Der Schnellaufbau hat eine kürzere Bauzeit, der Standardaufbau hat jedoch im Allgemeinen eine höhere Genauigkeit.

Für tabellarische Prognosemodelle und Zeitreihenprognosemodelle verwendet Canvas Downsampling, um die Größe von Datensätzen zu reduzieren, die größer als 5 GB bzw. 30 GB sind. Canvas-Downsamples mit der Methode der geschichteten Stichprobenerhebung. In der folgenden Tabelle ist der Umfang der Downsample nach Modelltyp aufgeführt. Um den Sampling-Prozess zu kontrollieren, können Sie Data Wrangler in Canvas verwenden, um mit Ihrer bevorzugten Sampling-Technik Proben zu nehmen. Bei Zeitreihendaten können Sie ein Resampling durchführen, um Datenpunkte zu aggregieren. Weitere Informationen zur Stichprobenerhebung finden Sie unterSampling. Weitere Informationen zum Resampling von Zeitreihendaten finden Sie unterNehmen Sie erneut Proben aus den Zeitreihendaten.

Wenn Sie sich dafür entscheiden, einen Quick Build für einen Datensatz mit mehr als 50.000 Zeilen durchzuführen, nimmt Canvas für eine kürzere Trainingszeit des Modells ein Sampling Ihrer Daten auf 50.000 Zeilen vor.

In der folgenden Tabelle werden die wichtigsten Merkmale des Modellerstellungsprozesses zusammengefasst, darunter die durchschnittlichen Erstellungszeiten für jedes Modell und jeden Build-Typ, die Größe des Downsamples bei der Erstellung von Modellen mit großen Datensätzen sowie die Mindest- und Höchstanzahl von Datenpunkten, die Sie für jeden Build-Typ haben sollten.

Limit Numerische und kategoriale Vorhersage Zeitreihenprognosen Bildvorhersage Textvorhersage

Schnelle Erstellungszeit

2-20 Minuten

2-20 Minuten

15-30 Minuten

15-30 Minuten

Standardbauzeit

2-4 Stunden

2-4 Stunden

2-5 Stunden

2-5 Stunden

Downsampling-Größe (die reduzierte Größe eines großen Datensatzes nach dem Downsampling von Canvas)

5 GB

30 GB

N/A

N/A

Mindestanzahl von Einträgen (Zeilen) für Schnellaufbau

Kategorie 2: 500 Zeilen

Kategorie 3+, numerisch, Zeitreihen: N/A

N/A

N/A

Mindestanzahl von Einträgen (Zeilen, Bilder oder Dokumente) für Standardaufbau

250

50

50

N/A

Maximale Anzahl von Einträgen (Zeilen, Bilder oder Dokumente) für Schnellaufbau

N/A

N/A

5000

7500

Maximale Anzahl von Einträgen (Zeilen, Bilder oder Dokumente) für Standardaufbau

N/A

150.000

180 000

N/A

Maximale Anzahl von Spalten

1.000

1.000

N/A

N/A

Wenn Sie sich abmelden, während Sie einen Schnellaufbau ausführen, wird Ihr Aufbau möglicherweise unterbrochen, bis Sie sich erneut anmelden. Wenn Sie sich erneut anmelden, setzt Canvas den Schnellaufbau fort.

Canvas prognostiziert Werte anhand der Informationen im Rest des Datensatzes, je nach Modelltyp:

  • Für kategoriale Vorhersagen ordnet Canvas jede Zeile einer der Kategorien zu, die in der Spalte Ziel aufgeführt sind.

  • Für numerische Vorhersagen verwendet Canvas die Informationen im Datensatz, um die numerischen Werte in der Zielspalte vorherzusagen.

  • Für Zeitreihenprognosen verwendet Canvas historische Daten, um Werte für die Zielspalte in der Zukunft vorherzusagen.

  • Für die Bildvorhersage verwendet Canvas Bilder, denen Beschriftungen zugewiesen wurden, um Beschriftungen für Bilder ohne Beschriftungen vorherzusagen.

  • Für die Textvorhersage analysiert Canvas Textdaten, denen Beschriftungen zugewiesen wurden, um Beschriftungen für Textpassagen ohne Beschriftungen vorherzusagen.

Zusätzliche Features, die Ihnen bei der Erstellung Ihres Modells helfen

Bevor Sie Ihr Modell erstellen, können Sie Data Wrangler in Canvas verwenden, um Ihre Daten mithilfe von mehr als 300 integrierten Transformationen und Operatoren vorzubereiten. Data Wrangler unterstützt Transformationen sowohl für tabellarische als auch für Bilddatensätze. Darüber hinaus können Sie eine Verbindung zu Datenquellen außerhalb von Canvas herstellen, Jobs erstellen, um Transformationen auf Ihren gesamten Datensatz anzuwenden, und Ihre vollständig vorbereiteten und bereinigten Daten zur Verwendung in ML-Workflows außerhalb von Canvas exportieren. Weitere Informationen finden Sie unter Datenaufbereitung.

Um Visualisierungen und Analysen anzuzeigen, mit denen Sie Ihre Daten untersuchen und bestimmen können, welche Funktionen in Ihr Modell aufgenommen werden sollen, können Sie die integrierten Analysen von Data Wrangler verwenden. Sie können auch auf einen Bericht zur Datenqualität und zu Erkenntnissen zugreifen, in dem potenzielle Probleme mit Ihrem Datensatz hervorgehoben und Empfehlungen zu deren Behebung gegeben werden. Weitere Informationen finden Sie unter Führen Sie eine explorative Datenanalyse durch () EDA.

Zusätzlich zu den fortschrittlicheren Funktionen zur Datenaufbereitung und Erkundung von Daten, die von Data Wrangler bereitgestellt werden, bietet Canvas einige grundlegende Funktionen, die Sie verwenden können:

Bei tabellarischen Datensätzen mit mehreren Spalten (z. B. Datensätze für die Erstellung von Modelltypen für kategoriale, numerische oder Zeitreihenprognosen) gibt es möglicherweise Zeilen mit fehlenden Datenpunkten. Während Canvas das Modell erstellt, fügt es fehlende Werte automatisch hinzu. Canvas verwendet die Werte in Ihrem Datensatz, um eine mathematische Näherung für die fehlenden Werte durchzuführen. Für die höchste Modellgenauigkeit empfehlen wir, die fehlenden Daten hinzuzufügen, wenn Sie sie finden können. Beachten Sie, dass die Feature für fehlende Daten für Modelle zur Textvorhersage oder Bildvorhersage nicht unterstützt wird.

Erste Schritte

Informationen zu den ersten Schritten beim Erstellen eines benutzerdefinierten Modells finden Sie in Ein Modell erstellen und folgen Sie dem Verfahren für den Modelltyp, den Sie erstellen möchten.