Amazon Machine Learning Learning-Schlüsselkonzepte - Amazon Machine Learning

Wir aktualisieren den Amazon Machine Learning Learning-Service nicht mehr und akzeptieren keine neuen Benutzer mehr dafür. Diese Dokumentation ist für bestehende Benutzer verfügbar, wir aktualisieren sie jedoch nicht mehr. Weitere Informationen finden Sie unterWas Amazon Machine Learning.

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Amazon Machine Learning Learning-Schlüsselkonzepte

Dieser Abschnitt bietet eine Übersicht über die folgenden wesentlichen Konzepte und beschreibt ausführlich, wie sie innerhalb von Amazon ML verwendet werden:

  • Datenquellenenthalten Metadaten, die mit Dateneingaben in Amazon ML verknüpft sind

  • ML-Modelle generieren Voraussagen mithilfe der aus den Eingabedaten extrahierten Muster

  • Auswertungen messen die Qualität von ML-Modellen

  • Stapelvoraussagen generieren Voraussagen asynchron für mehrere Eingabedatenbeobachtungen

  • Echtzeitvoraussagen generieren Voraussagen synchron für einzelne Datenbeobachtungen

Datenquellen

Eine Datenquelle ist ein Objekt, das Metadaten über Ihre Eingabedaten enthält. Amazon ML liest die Eingabedaten, berechnet beschreibende Statistiken zu deren Attributen und speichert die Statistiken zusammen mit einem Schema und weiteren Informationen als Bestandteil des Datenquellenobjekts. Datenquellen werden von Amazon ML anschließend für das Lernen und die Auswertung eines maschinellen Lernmodells sowie für die Generierung von Stapelvoraussagen genutzt.

Wichtig

Eine Datenquelle speichert keine Kopie Ihrer Eingabedaten. Stattdessen wird ein Verweis auf den Speicherort in Amazon S3 gespeichert, an dem sich Ihre Eingabedaten befinden. Wenn Sie die Amazon S3 S3-Datei verschieben oder ändern, kann Amazon ML nicht auf sie zugreifen oder sie verwenden, um ein ML-Modell zu erstellen, Auswertungen zu generieren oder Voraussagen zu machen.

In der folgenden Tabelle sind Bedingungen definiert, die im Zusammenhang mit Datenquellen stehen.

Laufzeit Definition
Attribut

Eine eindeutige und benannte Eigenschaft innerhalb einer Beobachtung. In tabellarischen Daten (z. B. Kalkulationstabellen oder Dateien im CSV-Format (durch Komma getrennte Werte)) stellen die Spaltenüberschriften die Attribute dar, in den Zeilen sind Werte für diese Attribute enthalten.

Synonyme: Variable, Variablenname, Feld, Spalte

Datenquellenname (Optional) Sie können einen lesbaren Namen für eine Datenquelle definieren. Anhand dieser Namen können Sie Ihre Datenquellen in der Amazon ML-Konsole suchen und verwalten.
Eingabedaten Sammelbezeichnung für alle Beobachtungen, auf die von einer Datenquelle verwiesen wird.
Ort Speicherort der Eingabedaten. Derzeit kann Amazon ML Daten verwenden, die innerhalb von Amazon S3 S3-Buckets, Amazon Redshift Redshift-Datenbanken oder MySQL-Datenbanken in Amazon Relational Database Service (RDS) gespeichert sind.
Beobachtung

Eine einzelne Einheit von Eingabedaten. Wenn Sie beispielsweise ein ML-Modell erstellen, um betrügerische Transaktionen zu ermitteln, bestehen Ihre Eingabedaten aus vielen Beobachtungen, von denen jede eine einzelne Transaktion darstellt.

Synonyme: Datensatz, Beispiel, Instanz, Zeile

Zeilen-ID

(Optional) – Ein Flag, das, falls angegeben, ein Attribut in den Eingabedaten identifiziert, das in das Voraussageergebnis eingeschlossen werden soll. Anhand dieses Attributs kann einfacher zugeordnet werden, welche Voraussage welcher Beobachtung entspricht.

Synonyme: Zeilen-ID

Schema Die Informationen, die zur Deutung der Eingabedaten benötigt werden, einschließlich Attributnamen und ihre zugeordneten Datentypen sowie die Namen besonderer Attribute.
Statistiken

Zusammenfassende Statistik für jedes Attribut in den Eingabedaten. Diese Statistiken dienen zwei Zwecken:

Die Amazon ML-Konsole zeigt sie in Diagrammen an, damit Sie die Daten auf einen Blick besser verstehen und Unregelmäßigkeiten oder Fehler erkennen können.

Amazon ML verwendet sie während des Schulungsprozesses, um die Qualität des resultierenden ML-Modells zu verbessern.

Status Gibt den aktuellen Status der Datenquelle an, beispielsweise Laufend, Abgeschlossenoder Fehlgeschlagen.
Zielattribut

Im Kontext der Schulung eines ML-Modells identifiziert das Zielattribut den Namen des Attributs in den Eingabedaten, welche die "richtigen" Antworten enthalten. Amazon ML verwendet diese, um Muster in den Eingabedaten zu entdecken und ein ML-Modell zu generieren. Im Kontext des Auswertens und Generierens von Voraussagen, ist das Zielattribut das Attribut, dessen Wert vorhergesagt von einem qualifizierten ML-Modell vorhergesagt wird.

Synonyme: Ziel

ML-Modelle

Ein ML-Modell ist ein mathematisches Modell, bei dem Voraussagen durch die Ermittlung von Mustern in Ihren Daten generiert werden. Amazon ML unterstützt drei ML-Modelltypen: binäre Klassifizierung, Mehrklassen-Klassifizierung und Regression.

In der folgenden Tabelle sind Begriffe definierte, die im Zusammenhang mit ML-Modellen stehen.

Laufzeit Definition
Regression Das Ziel der Schulung eines Regressions-ML-Modells besteht darin, einen numerischen Wert vorherzusagen.
Mehrklassen Das Ziel der Schulung eines Mehrklassen-ML-Modells besteht darin, Werte vorherzusagen, die zu einem begrenzten und vordefinierten Satz an zulässigen Werten gehören.
Binary Das Ziel der Schulung eines Binär-ML-Modells besteht darin, Werte vorherzusagen, die nur einen von zwei Status aufweisen können, z. B. "true" oder "false".
Modellgröße ML-Modelle erfassen und speichern Muster. Je mehr Muster in einem ML-Modell gespeichert sind, desto größer ist es. Die ML-Modellgröße wird in MB beschrieben.
Anzahl der Durchläufe Wenn Sie ein ML-Modell schulen, verwenden Sie Daten aus einer Datenquelle. Es ist manchmal von Vorteil, jeden Datensatz im Lernprozess mehrmals zu verwenden. Die Anzahl von Malen, die Sie Amazon ML dieselben Datensätze verwenden lassen, wird als die Anzahl von Durchläufen bezeichnet.
Regularisation Die Regularisation ist eine Technik des maschinellen Lernens (ML), die verwendet werden kann, um ML-Modelle mit höherer Qualität zu erhalten. Amazon ML bietet eine Standardeinstellung, die in den meisten Fällen funktioniert.

Auswertungen

Eine Auswertung misst die Qualität Ihres ML-Modells und bestimmt, ob es gute Leistungen bringt.

In der folgenden Tabelle sind Begriffe im Zusammenhang mit Auswertungen definiert.

Laufzeit Definition
Einblicke in Modelle Amazon ML stellt Ihnen eine Metrik und eine Reihe von Erkenntnissen bereit, die Sie verwenden können, um die prädiktive Leistung Ihres Modells zu bewerten.
AUC AUC (Area Under the ROC Curve) misst die Fähigkeit eines binären ML-Modells, eine höhere Bewertung für positive Beispiele im Vergleich zu negativen Beispielen vorherzusagen.
F1-Bewertung mit Makro-Durchschnitt Die F1-Bewertung mit Makro-Durchschnitt wird zum Auswerten der prädiktiven Leistung von Mehrklassen-ML-Modellen verwendet.
RMSE Der Root Mean Square Error (RMSE) ist eine Metrik zur Bewertung der prädiktive Leistung von Regressions-ML-Modellen.
Grenzwert ML-Modelle arbeiten durch Generierung von numerischen Voraussageergebnissen. Durch Anwenden eines Grenzwerts konvertiert das System diese Werte in 0- und 1-Bezeichnungen.
Accuracy Die Richtigkeit misst den Anteil der richtigen Voraussagen.
Genauigkeit „Precision“ zeigt den Prozentsatz der tatsächlichen positiven Instances (im Gegensatz zu Fehlalarmen) unter den Instances an, die abgerufen wurden (diejenigen, die als positiv vorausgesagt wurden). Mit anderen Worten: Wie viele ausgewählte Elemente sind positiv?
Wiedererkennung „Recall“ zeigt den Prozentsatz der tatsächlichen positiven Instances in der Gesamtanzahl der betreffenden Instances an (tatsächliche positive Instances). Mit anderen Worten: Wie viele positive Elemente sind ausgewählt?

Stapelvoraussagen

Stapelvoraussagen werden für eine Reihe von Beobachtungen verwendet, die alle gleichzeitig ausgeführt werden können. Diese Lösung eignet sich optimal für prädiktive Analysen, die keine Echtzeitanforderung aufweisen.

In der folgenden Tabelle sind Begriffe im Zusammenhang mit Stapelvoraussagen definiert.

Laufzeit Definition
Ausgabespeicherort Die Ergebnisse einer Stapelvoraussage werden in einem S3-Bucket-Ausgabespeicherort gespeichert.
Manifestdatei Diese Datei verknüpft die Eingabedatendatei mit den zugehörigen Ergebnissen der Stapelvoraussage. Sie wird am S3-Ausgabespeicherort gespeichert.

Echtzeitvoraussagen

Echtzeitvoraussagen werden für Anwendungen mit geringer Latenzanforderung verwendet, z. B. interaktive Webanwendungen, mobile Anwendungen oder Desktopanwendungen. Jedes ML-Modell kann im Hinblick auf Voraussagen mithilfe der latenzarmen Echtzeitvoraussage-API abgefragt werden.

In der folgenden Tabelle sind Begriffe im Zusammenhang mit Echtzeitvoraussagen definiert.

Laufzeit Definition
Echtzeitvoraussage-API Die Echtzeitvoraussage-API akzeptiert eine einzelne Eingabebeobachtung in der Nutzlast der Anforderung und gibt die Voraussage synchron in der Antwort zurück.
Endpunkt für Echtzeitvoraussagen Um ein ML-Modell mit einer Echtzeitvoraussage-API zu verwenden, müssen Sie einen Endpunkt für Echtzeitvoraussagen erstellen. Nach der Erstellung enthält der Endpunkt die URL, die Sie verwenden können, um Echtzeitvoraussagen anzufordern.