Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Wie funktionieren benutzerdefinierte Modelle
Verwenden Sie Amazon SageMaker Canvas, um ein benutzerdefiniertes Modell für den Datensatz zu erstellen, den Sie importiert haben. Verwenden Sie das Modell, das Sie erstellt haben, um Vorhersagen für neue Daten zu treffen. SageMaker Canvas verwendet die Informationen im Datensatz, um bis zu 250 Modelle zu erstellen und das Modell auszuwählen, das die beste Leistung erbringt.
Wenn Sie mit der Erstellung eines Modells beginnen, empfiehlt Canvas automatisch einen oder mehrere Modelltypen. Modelltypen lassen sich in eine der folgenden Kategorien einteilen:
-
Numerische Vorhersage – Dies wird beim Machine Learning als Regression bezeichnet. Verwenden Sie den numerischen Prognosemodelltyp, wenn Sie Vorhersagen für numerische Daten treffen möchten. Möglicherweise möchten Sie den Preis von Häusern anhand von Features wie der Quadratmeterzahl des Hauses vorhersagen.
-
Kategorische Vorhersage – Dies wird beim Machine Learning als Klassifizierung bezeichnet. Wenn Sie Daten in Gruppen kategorisieren möchten, verwenden Sie die Typen von kategorialen Vorhersagemodellen:
-
Vorhersage mit 2 Kategorien – Verwenden Sie den Vorhersagemodelltyp 2 Kategorien (beim Machine Learning auch als binäre Klassifikation bezeichnet), wenn Sie zwei Kategorien haben, die Sie für Ihre Daten vorhersagen möchten. Beispielsweise können Sie feststellen, ob ein Kunde wahrscheinlich abwandern wird.
-
Vorhersage für 3 oder mehr Kategorien – Verwenden Sie den Modelltyp für die Vorhersage von Kategorien ab 3 oder mehr (beim Machine Learning auch als Klassifizierung mit mehreren Klassen bezeichnet), wenn Sie drei oder mehr Kategorien haben, die Sie für Ihre Daten vorhersagen möchten. So können Sie z. B. den Kreditstatus eines Kunden anhand von Features wie früheren Zahlungen vorhersagen.
-
-
Zeitreihenprognosen – Verwenden Sie Zeitreihenprognosen, wenn Sie Vorhersagen über einen bestimmten Zeitraum treffen möchten. So können Sie beispielsweise die Anzahl der Artikel vorhersagen, die Sie im nächsten Quartal verkaufen werden. Informationen zu Zeitreihenprognosen finden Sie unter Zeitreihenprognosen in Amazon SageMaker Canvas.
-
Bildvorhersage – Verwenden Sie den Modelltyp für die Bildvorhersage mit einer einzigen Beschriftung (beim Machine Learning auch als Bildklassifizierung mit einfacher Bezeichnung bezeichnet), wenn Sie Bildern Beschriftungen zuweisen möchten. So können Sie z. B. verschiedene Arten von Herstellungsfehlern in Bildern Ihres Produkts klassifizieren.
-
Textvorhersage – Verwenden Sie den Modelltyp für Textvorhersagen mit mehreren Kategorien (beim Machine Learning auch als Textklassifizierung mit mehreren Klassen bezeichnet), wenn Sie Textpassagen Beschriftungen zuweisen möchten. Angenommen, Sie verfügen über einen Datensatz mit Kundenrezensionen für ein Produkt und möchten ermitteln, ob Kunden das Produkt möchten oder nicht. Sie könnten Ihr Modell vorhersagen lassen, ob eine bestimmte Textpassage
Positive
,Negative
, oderNeutral
ist.
Eine Tabelle der unterstützten Eingabedatentypen für jeden Modelltyp finden Sie unter Benutzerdefinierte Modelle.
Für jedes tabellarische Datenmodell, das Sie erstellen (das numerische, kategoriale, Zeitreihenprognosen und Textvorhersagemodelle umfasst), wählen Sie die Zielspalte aus. Die Zielspalte ist die Spalte, die die Informationen enthält, die Sie vorhersagen möchten. Wenn Sie beispielsweise ein Modell erstellen, um vorherzusagen, ob Personen ihre Abonnements gekündigt haben, enthält die Zielspalte Datenpunkte, die entweder ein yes
oder ein no
zum Kündigungsstatus einer Person sind.
Bei Modellen zur Bildvorhersage erstellen Sie das Modell mit einem Datensatz von Bildern, denen Beschriftungen zugewiesen wurden. Für die unbeschrifteten Bilder, die Sie bereitstellen, prognostiziert das Modell eine Beschriftung. Wenn Sie beispielsweise ein Modell erstellen, um vorherzusagen, ob es sich bei dem Bild um eine Katze oder einen Hund handelt, geben Sie beim Erstellen des Modells Bilder an, die als Katzen oder Hunde gekennzeichnet sind. Dann kann das Modell unbeschriftete Bilder akzeptieren und sie entweder als Katzen oder Hunde vorhersagen.
Was geschieht, wenn Sie ein Modell erstellen
Um Ihr Modell zu erstellen, können Sie entweder einen Schnellaufbau oder einen Standardaufbau wählen. Der Schnellaufbau hat eine kürzere Bauzeit, der Standardaufbau hat jedoch im Allgemeinen eine höhere Genauigkeit.
Für tabellarische Prognosemodelle und Zeitreihenprognosemodelle verwendet Canvas Downsampling, um die Größe von Datensätzen zu reduzieren, die größer als 5 GB bzw. 30 GB sind. Canvas-Downsamples mit der Methode der geschichteten Stichprobenerhebung. In der folgenden Tabelle ist der Umfang der Downsample nach Modelltyp aufgeführt. Um den Sampling-Prozess zu kontrollieren, können Sie Data Wrangler in Canvas verwenden, um mit Ihrer bevorzugten Sampling-Technik Proben zu nehmen. Bei Zeitreihendaten können Sie ein Resampling durchführen, um Datenpunkte zu aggregieren. Weitere Informationen zur Stichprobenerhebung finden Sie unterSampling. Weitere Informationen zum Resampling von Zeitreihendaten finden Sie unterNehmen Sie erneut Proben aus den Zeitreihendaten.
Wenn Sie sich dafür entscheiden, einen Quick Build für einen Datensatz mit mehr als 50.000 Zeilen durchzuführen, nimmt Canvas für eine kürzere Trainingszeit des Modells ein Sampling Ihrer Daten auf 50.000 Zeilen vor.
In der folgenden Tabelle werden die wichtigsten Merkmale des Modellerstellungsprozesses zusammengefasst, darunter die durchschnittlichen Erstellungszeiten für jedes Modell und jeden Build-Typ, die Größe des Downsamples bei der Erstellung von Modellen mit großen Datensätzen sowie die Mindest- und Höchstanzahl von Datenpunkten, die Sie für jeden Build-Typ haben sollten.
Limit | Numerische und kategoriale Vorhersage | Zeitreihenprognosen | Bildvorhersage | Textvorhersage |
---|---|---|---|---|
Schnelle Erstellungszeit |
2-20 Minuten |
2-20 Minuten |
15-30 Minuten |
15-30 Minuten |
Standardbauzeit |
2-4 Stunden |
2-4 Stunden |
2-5 Stunden |
2-5 Stunden |
Downsampling-Größe (die reduzierte Größe eines großen Datensatzes nach dem Downsampling von Canvas) |
5 GB |
30 GB |
N/A |
N/A |
Mindestanzahl von Einträgen (Zeilen) für Schnellaufbau |
Kategorie 2: 500 Zeilen Kategorie 3+, numerisch, Zeitreihen: N/A |
N/A |
– |
N/A |
Mindestanzahl von Einträgen (Zeilen, Bilder oder Dokumente) für Standardaufbau |
250 |
50 |
50 |
N/A |
Maximale Anzahl von Einträgen (Zeilen, Bilder oder Dokumente) für Schnellaufbau |
N/A |
N/A |
5000 |
7500 |
Maximale Anzahl von Einträgen (Zeilen, Bilder oder Dokumente) für Standardaufbau |
N/A |
150.000 |
180 000 |
N/A |
Maximale Anzahl von Spalten |
1.000 |
1.000 |
N/A |
N/A |
Wenn Sie sich abmelden, während Sie einen Schnellaufbau ausführen, wird Ihr Aufbau möglicherweise unterbrochen, bis Sie sich erneut anmelden. Wenn Sie sich erneut anmelden, setzt Canvas den Schnellaufbau fort.
Canvas prognostiziert Werte anhand der Informationen im Rest des Datensatzes, je nach Modelltyp:
-
Für kategoriale Vorhersagen ordnet Canvas jede Zeile einer der Kategorien zu, die in der Spalte Ziel aufgeführt sind.
-
Für numerische Vorhersagen verwendet Canvas die Informationen im Datensatz, um die numerischen Werte in der Zielspalte vorherzusagen.
-
Für Zeitreihenprognosen verwendet Canvas historische Daten, um Werte für die Zielspalte in der Zukunft vorherzusagen.
-
Für die Bildvorhersage verwendet Canvas Bilder, denen Beschriftungen zugewiesen wurden, um Beschriftungen für Bilder ohne Beschriftungen vorherzusagen.
-
Für die Textvorhersage analysiert Canvas Textdaten, denen Beschriftungen zugewiesen wurden, um Beschriftungen für Textpassagen ohne Beschriftungen vorherzusagen.
Zusätzliche Features, die Ihnen bei der Erstellung Ihres Modells helfen
Bevor Sie Ihr Modell erstellen, können Sie Data Wrangler in Canvas verwenden, um Ihre Daten mithilfe von mehr als 300 integrierten Transformationen und Operatoren vorzubereiten. Data Wrangler unterstützt Transformationen sowohl für tabellarische als auch für Bilddatensätze. Darüber hinaus können Sie eine Verbindung zu Datenquellen außerhalb von Canvas herstellen, Jobs erstellen, um Transformationen auf Ihren gesamten Datensatz anzuwenden, und Ihre vollständig vorbereiteten und bereinigten Daten zur Verwendung in ML-Workflows außerhalb von Canvas exportieren. Weitere Informationen finden Sie unter Datenaufbereitung.
Um Visualisierungen und Analysen anzuzeigen, mit denen Sie Ihre Daten untersuchen und bestimmen können, welche Funktionen in Ihr Modell aufgenommen werden sollen, können Sie die integrierten Analysen von Data Wrangler verwenden. Sie können auch auf einen Bericht zur Datenqualität und zu Erkenntnissen zugreifen, in dem potenzielle Probleme mit Ihrem Datensatz hervorgehoben und Empfehlungen zu deren Behebung gegeben werden. Weitere Informationen finden Sie unter Führen Sie eine explorative Datenanalyse durch () EDA.
Zusätzlich zu den fortschrittlicheren Funktionen zur Datenaufbereitung und Erkundung von Daten, die von Data Wrangler bereitgestellt werden, bietet Canvas einige grundlegende Funktionen, die Sie verwenden können:
Informationen zum Filtern Ihrer Daten und zum Zugriff auf eine Reihe grundlegender Datentransformationen finden Sie unter. Bereiten Sie Daten für die Modellerstellung vor
Informationen zum Zugriff auf einfache Visualisierungen und Analysen für die Erkundung von Funktionen finden Sie unter. Untersuchung und Analyse von Daten
Weitere Informationen zu zusätzlichen Featureswie der Vorschau Ihres Modells, der Validierung Ihres Datensatzes und der Änderung der Größe der Zufallsstichprobe, die zur Erstellung Ihres Modells verwendet wurde, finden Sie unter Zeigen Sie eine Vorschau Ihres Modells an.
Bei tabellarischen Datensätzen mit mehreren Spalten (z. B. Datensätze für die Erstellung von Modelltypen für kategoriale, numerische oder Zeitreihenprognosen) gibt es möglicherweise Zeilen mit fehlenden Datenpunkten. Während Canvas das Modell erstellt, fügt es fehlende Werte automatisch hinzu. Canvas verwendet die Werte in Ihrem Datensatz, um eine mathematische Näherung für die fehlenden Werte durchzuführen. Für die höchste Modellgenauigkeit empfehlen wir, die fehlenden Daten hinzuzufügen, wenn Sie sie finden können. Beachten Sie, dass die Feature für fehlende Daten für Modelle zur Textvorhersage oder Bildvorhersage nicht unterstützt wird.
Erste Schritte
Informationen zu den ersten Schritten beim Erstellen eines benutzerdefinierten Modells finden Sie in Ein Modell erstellen und folgen Sie dem Verfahren für den Modelltyp, den Sie erstellen möchten.