Machine Learning API - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Machine Learning API

Die Machine-Learning-API beschreibt die Machine-Learning-Datentypen und umfasst die API zum Erstellen, Löschen oder Aktualisieren einer Transformation oder zum Starten einer Machine-Learning-Aufgabe.

Datentypen

TransformParameters Struktur

Die algorithmusspezifischen Parameter im Zusammenhang mit der Machine Learning-Transformation.

Felder
  • TransformTypeErforderlich: UTF-8-Zeichenfolge (zulässige Werte: FIND_MATCHES).

    Der Typ von Machine Learning-Transformation.

    Weitere Informationen zu den Typen von Machine Learning-Transformationen finden Sie unter Erstellen von Machine Learning-Transformationen.

  • FindMatchesParameters – Ein FindMatchesParameter-Objekt.

    Die Parameter für den Algorithmus zur Suche nach Übereinstimmungen.

EvaluationMetrics Struktur

Auswertungsmetriken bieten eine Schätzung der Qualität Ihrer Machine Learning-Transformation.

Felder
  • TransformTypeErforderlich: UTF-8-Zeichenfolge (zulässige Werte: FIND_MATCHES).

    Der Typ von Machine Learning-Transformation.

  • FindMatchesMetrics – Ein FindMatchesMetriken-Objekt.

    Die Auswertungsmetriken für den Algorithmus zur Suche nach Übereinstimmungen.

MLTransform-Struktur

Eine Struktur für eine Machine Learning-Transformation.

Felder
  • TransformId – UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

    Die eindeutige Transform-ID, die für die Machine Learning-Transformation generiert wird. Die ID ist garantiert eindeutig und ändert sich nicht.

  • Name – UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

    Ein benutzerdefinierter Name für die Machine Learning-Transformation. Namen sind nicht garantiert eindeutig und können jederzeit geändert werden.

  • Description – Beschreibende Zeichenfolge, nicht mehr als 2048 Bytes lang, passend zum URI address multi-line string pattern.

    Eine benutzerdefinierte Langform-Textbeschreibung für die Machine Learning-Transformation. Beschreibungen sind nicht garantiert eindeutig und können jederzeit geändert werden.

  • Status – UTF-8-Zeichenfolge (zulässige Werte: NOT_READY | READY | DELETING).

    Der aktuelle Status der Machine Learning-Transformation.

  • CreatedOn – Zeitstempel.

    Ein Zeitstempel. Das Datum und die Uhrzeit, zu der diese Machine-Learning-Transformation erstellt wurde.

  • LastModifiedOn – Zeitstempel.

    Ein Zeitstempel. Der Zeitpunkt, zu dem diese Machine-Learning-Transformation zuletzt geändert wurde.

  • InputRecordTables – Ein Array mit GlueTable-Objekten, nicht mehr als 10 Strukturen.

    Eine Liste der von der Transformation verwendeten AWS Glue Tabellendefinitionen.

  • Parameters – Ein TransformParameters-Objekt.

    Ein TransformParameters-Objekt. Sie können das Verhalten der Machine Learning-Transformation mithilfe von Parametern optimieren (anpassen), indem Sie angeben, von welchen Daten sie lernt, sowie Ihre Vorzüge bezüglich verschiedener Verhältnisse (z. B. Präzision vs. Sensititivität oder Genauigkeit vs. Kosten).

  • EvaluationMetrics – Ein EvaluationMetrics-Objekt.

    Ein EvaluationMetrics-Objekt. Auswertungsmetriken bieten eine Schätzung der Qualität Ihrer Machine Learning-Transformation.

  • LabelCount – Zahl (Ganzzahl).

    Eine Zähl-ID für die von AWS Glue für diese Transformation generierten Bezeichnungsdateien. Während Sie eine bessere Transformation erstellen, können Sie die Labeling-Datei iterativ herunterladen, labeln und wieder hochladen.

  • Schema – Ein Array mit SchemaColumn-Objekten, nicht mehr als 100 Strukturen.

    Eine Zuordnung von Schlüssel-Wert-Paaren, durch die die Spalten und Datentypen repräsentiert werden, für die diese Transformation ausgeführt werden kann. Hat eine Obergrenze von 100 Spalten.

  • Role – UTF-8-Zeichenfolge.

    Der Name oder Amazon-Ressourcenname (ARN) der IAM-Rolle mit den erforderlichen Berechtigungen. Zu den erforderlichen Berechtigungen gehören sowohl AWS Glue Service-Rollenberechtigungen für AWS Glue Ressourcen als auch Amazon S3 S3-Berechtigungen, die für die Transformation erforderlich sind.

    • Diese Rolle benötigt AWS Glue Servicerollenberechtigungen, um den Zugriff auf Ressourcen in zu ermöglichen AWS Glue. Siehe Anfügen einer Richtlinie an IAM-Benutzer, die auf AWS Glue zugreifen.

    • Diese Rolle benötigt die Berechtigung für Ihre Amazon Simple Storage Service (Amazon S3)-Quellen, -Ziele, temporären Verzeichnisse und -Skripts sowie für beliebige Bibliotheken, die von der für diese Transformation ausgeführten Aufgabe genutzt werden.

  • GlueVersion – UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Custom string pattern #20.

    Dieser Wert bestimmt, mit welcher Version AWS Glue dieser Transformation für maschinelles Lernen kompatibel ist. Glue 1.0 wird für die meisten Kunden empfohlen. Wenn der Wert nicht festgelegt ist, wird die Glue-Kompatibilität standardmäßig auf Glue 0.9 gesetzt. Weitere Informationen finden Sie unter AWS Glue -Versionen im Entwicklerhandbuch.

  • MaxCapacity – Nummer (doppelt).

    Die Anzahl der AWS Glue Datenverarbeitungseinheiten (DPUs), die Aufgabenausführungen für diese Transformation zugewiesen sind. Sie können von 2 bis 100 DPUs zuweisen. Der Standardwert ist 10. Bei einer DPU handelt es sich um ein relatives Maß der Rechenleistung, die aus 4 vCPUs Rechenkapazität und 16 GB Arbeitsspeicher besteht. Weitere Informationen finden Sie in der AWS Glue Preisliste.

    MaxCapacity ist eine sich mit NumberOfWorkers und WorkerType ausschließende Option.

    • Wenn NumberOfWorkers oder WorkerType festgelegt ist, kann MaxCapacity nicht festgelegt werden.

    • Wenn MaxCapacity festgelegt ist, kann weder NumberOfWorkers noch WorkerType festgelegt werden.

    • Wenn WorkerType festgelegt ist, ist NumberOfWorkers erforderlich (und umgekehrt).

    • Für MaxCapacity und NumberOfWorkers muss der Wert mindestens 1 lauten.

    Wenn das Feld WorkerType auf einen anderen Wert als Standard gesetzt ist, wird das Feld MaxCapacity automatisch eingestellt und wird schreibgeschützt.

  • WorkerType – UTF-8-Zeichenfolge (zulässige Werte: Standard="" | G.1X="" | G.2X="" | G.025X="" | G.4X="" | G.8X="" | Z.2X="").

    Der Typ des vordefinierten Workers, der zugewiesen wird, wenn eine Aufgabe dieser Transformation ausgeführt wird. Akzeptiert den Wert Standard, G.1X oder G.2X.

    • Für den Worker-Typ Standard stellt jeder Worker 4 vCPUs, 16 GB Arbeitsspeicher und 50 GB Festplattenplatz sowie 2 Executors pro Worker bereit.

    • Für den Worker-Typ G.1X stellt jeder Worker 4 vCPUs, 16 GB Arbeitsspeicher und 64 GB Festplattenplatz sowie 1 Executor pro Worker bereit.

    • Für den Worker-Typ G.2X stellt jeder Worker 8 vCPUs, 32 GB Speicher und 128 GB Festplattenplatz sowie 1 Executor pro Worker bereit.

    MaxCapacity ist eine sich mit NumberOfWorkers und WorkerType ausschließende Option.

    • Wenn NumberOfWorkers oder WorkerType festgelegt ist, kann MaxCapacity nicht festgelegt werden.

    • Wenn MaxCapacity festgelegt ist, kann weder NumberOfWorkers noch WorkerType festgelegt werden.

    • Wenn WorkerType festgelegt ist, ist NumberOfWorkers erforderlich (und umgekehrt).

    • Für MaxCapacity und NumberOfWorkers muss der Wert mindestens 1 lauten.

  • NumberOfWorkers – Zahl (Ganzzahl).

    Die Anzahl von Workern eines definierten workerType, die zugewiesen werden, wenn eine Aufgabe der Transformation ausgeführt wird.

    Wenn WorkerType festgelegt ist, ist NumberOfWorkers erforderlich (und umgekehrt).

  • Timeout – Zahl (ganze Zahl), mindestens 1.

    Das Zeitlimit der Machine Learning-Transformation in Minuten.

  • MaxRetries – Zahl (Ganzzahl).

    Die maximale Anzahl der Wiederholungsversuche, nachdem eine MLTaskRun der Machine Learning-Transformation fehlgeschlagen ist.

  • TransformEncryption – Ein TransformEncryption-Objekt.

    Die encryption-at-rest Einstellungen der Transformation, die für den Zugriff auf Benutzerdaten gelten. Machine-Learning-Transformationen können mithilfe von KMS auf in Amazon S3 verschlüsselte Benutzerdaten zugreifen.

FindMatchesParameters Struktur

Die Parameter zum Konfigurieren der Transformation zur Suche nach Übereinstimmungen.

Felder
  • PrimaryKeyColumnName – UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 1024 Bytes lang, passend zum Single-line string pattern.

    Der Name einer Spalte, in der die Zeilen in der Quelltabelle eindeutig identifiziert werden. Dient zur leichteren Identifizierung übereinstimmender Datensätze.

  • PrecisionRecallTradeoff – Zahl (Double), nicht mehr als 1,0.

    Der ausgewählte Wert, wenn Sie Ihre Transformation für ein ausgewogenes Verhältnis zwischen Präzision und Sensitivität optimieren. Ein Wert von 0,5 bedeutet keine Präferenz, ein Wert von 1.0 bedeutet ein Bias ausschließlich für Präzision und ein Wert von 0,0 bedeutet ein Bias für Sensitivität. Da dies ein Verhältnis ist, bedeutet die Wahl von Werten nahe 1,0 eine sehr geringe Sensitivität und die Wahl von Werten nahe 0,0 eine sehr geringe Präzision.

    Die Präzisionsmetrik zeigt an, wie oft Ihr Modell korrekt ist, wenn es eine Übereinstimmung voraussagt.

    Die Sensitivitätsmetrik gibt für eine tatsächliche Übereinstimmung an, wie oft das Modell die Übereinstimmung vorhersagt.

  • AccuracyCostTradeoff – Zahl (Double), nicht mehr als 1,0.

    Der Wert, der ausgewählt wird, wenn Sie Ihre Transformation für ein ausgewogenes Verhältnis zwischen Genauigkeit und Kosten optimieren. Ein Wert von 0,5 bedeutet ein ausgewogenes Verhältnis zwischen Genauigkeit und Kosten. Ein Wert von 1.0 bedeutet ein Bias ausschließlich für Genauigkeit. Dies ist in der Regel mit höheren Kosten verbunden, manchmal mit wesentlich höheren Kosten. Ein Wert von 0,0 bedeutet ein Bias ausschließlich für Kosten. Dies führt zu einer weniger genauen FindMatches-Transformation, manchmal mit unannehmbarer Genauigkeit.

    Mit der Genauigkeit wird gemessen, wie gut die Transformation bei der Suche nach wahren positiven und wahren negativen Ergebnisse abschneidet. Eine Erhöhung der Genauigkeit erfordert mehr maschinelle Ressourcen und erhöht die Kosten. Sie resultiert aber auch in einer erhöhten Sensitivität.

    Mit den Kosten wird gemessen, wie viele Datenverarbeitungsressourcen und damit Gelder für die Ausführung der Transformation verbraucht werden.

  • EnforceProvidedLabels – Boolesch.

    Der zu aktivierende oder zu deaktivierende Wert, um die Ausgabe entsprechend den von Benutzern bereitgestellten Labels zu erzwingen. Bei dem Wert True erzwingt die Transformation find matches die Ausgabe entsprechend den bereitgestellten Labels. Die Ergebnisse überschreiben die normalen Zusammenführungsergebnisse. Bei dem Wert False stellt die Transformation find matches nicht sicher, dass alle bereitgestellten Labels berücksichtigt werden. Die Ergebnisse sind vom trainierten Modell abhängig.

    Beachten Sie, dass sich die Konflations-Ausführungszeit erhöhen kann, wenn als Wert diese Einstellung „true“ festgelegt wird.

FindMatchesMetrics Struktur

Die Auswertungsmetriken für den Algorithmus zur Suche nach Übereinstimmungen. Die Qualität Ihrer Machine Learning-Transformation wird gemessen, indem Sie Ihre Transformation dazu veranlassen, einige Übereinstimmungen vorauszusagen, und die Ergebnisse dann mit bekannten Übereinstimmungen aus demselben Datensatz vergleichen. Die Qualitätsmetriken basieren auf einer Untermenge Ihrer Daten. Sie sind also nicht präzise.

Felder
  • AreaUnderPRCurve – Zahl (Double), nicht mehr als 1,0.

    Die Fläche unter der Präzisions-/Sensitivitätskurve (Area Under the Precision/Recall Curve, AUPRC) ist eine einzelne Zahl, mit der die Gesamtqualität der Transformation gemessen wird. Höhere Werte weisen auf ein attraktiveres Verhältnis zwischen Präzision und Sensitivität hin.

    Weitere Informationen finden Sie unter Precision and recall in Wikipedia.

  • Precision – Zahl (Double), nicht mehr als 1,0.

    Die Präzisionsmetrik zeigt an, wie oft Ihre Transformation korrekt ist, wenn sie eine Übereinstimmung voraussagt. Insbesondere misst sie, wie gut die Transformation wahre positive Ergebnisse unter den insgesamt möglichen wahren positiven Ergebnissen ermittelt.

    Weitere Informationen finden Sie unter Precision and recall in Wikipedia.

  • Recall – Zahl (Double), nicht mehr als 1,0.

    Die Sensitivitätsmetrik gibt für eine tatsächliche Übereinstimmung an, wie oft die Transformation die Übereinstimmung vorhersagt. Insbesondere misst sie, wie gut die Transformation die tatsächlichen positiven Ergebnisse aus der Gesamtzahl der Datensätze in den Quelldaten ermittelt.

    Weitere Informationen finden Sie unter Precision and recall in Wikipedia.

  • F1 – Zahl (Double), nicht mehr als 1,0.

    Die Metrik des maximalen F1-Wertes gibt die Genauigkeit der Transformation zwischen 0 und 1 an, wobei 1 ist die beste Genauigkeit ist.

    Weitere Informationen finden Sie unter F1 score in Wikipedia.

  • ConfusionMatrix – Ein ConfusionMatrix-Objekt.

    Die Konfusionsmatrix zeigt Ihnen, was von Ihrer Transformation richtig vorausgesagt wird und welche Arten von Fehlern gemacht werden.

    Weitere Informationen finden Sie unter Confusion Matrix in Wikipedia.

  • ColumnImportances – Ein Array mit ColumnImportance-Objekten, nicht mehr als 100 Strukturen.

    Eine Liste von ColumnImportance-Strukturen mit Metriken für die Spaltenbedeutung, sortiert nach absteigender Wichtigkeit.

ConfusionMatrix Struktur

Die Konfusionsmatrix zeigt Ihnen, was von Ihrer Transformation richtig vorausgesagt wird und welche Arten von Fehlern gemacht werden.

Weitere Informationen finden Sie unter Confusion Matrix in Wikipedia.

Felder
  • NumTruePositives – Zahl (lang).

    Die Anzahl der Übereinstimmungen in den Daten, die von der Transformation korrekt gefunden wurden, in der Konfusionsmatrix für Ihre Transformation.

  • NumFalsePositives – Zahl (lang).

    Die Anzahl von Nichtübereinstimmungen in den Daten, die von der Transformation fälschlicherweise als Übereinstimmung klassifiziert wurden, in der Konfusionsmatrix für Ihre Transformation.

  • NumTrueNegatives – Zahl (lang).

    Die Anzahl von Nichtübereinstimmungen in den Daten, die von der Transformation korrekt abgelehnt wurden, in der Konfusionsmatrix für Ihre Transformation.

  • NumFalseNegatives – Zahl (lang).

    Die Anzahl der Übereinstimmungen in den Daten, die von der Transformation nicht gefunden wurden, in der Konfusionsmatrix für Ihre Transformation.

GlueTable Struktur

Die Datenbank und Tabelle in der AWS Glue Data Catalog , die für Eingabe- oder Ausgabedaten verwendet werden.

Felder
  • DatabaseNameErforderlich: UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

    Ein Datenbankname im AWS Glue Data Catalog.

  • TableNameErforderlich: UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

    Ein Tabellenname im AWS Glue Data Catalog.

  • CatalogId – UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

    Eine eindeutige Kennung für AWS Glue Data Catalog.

  • ConnectionName – UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

    Der Name der zu löschenden Verbindung zu AWS Glue Data Catalog.

  • AdditionalOptions – Ein Map-Array von Schlüssel-Wert-Paaren, nicht weniger als 1 oder mehr als 10 Paare.

    Jeder Schlüssel ist eine UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, und entspricht dem Single-line string pattern.

    Jeder Wert ist eine Beschreibungszeichenfolge, die nicht länger als 2 048 Byte ist und mit URI address multi-line string pattern übereinstimmt.

    Zusätzliche Optionen für die Tabelle. Derzeit werden zwei Schlüssel unterstützt:

    • pushDownPredicate: zum Filtern nach Partitionen, ohne alle Dateien in Ihrem Datensatz auflisten und lesen zu müssen.

    • catalogPartitionPredicate: zur Verwendung des serverseitigen Partition-Pruning mithilfe von Partitionsindizes in der AWS Glue Data Catalog.

TaskRun Struktur

Die Sampling-Parameter im Zusammenhang mit der Machine Learning-Transformation.

Felder
  • TransformId – UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

    Die eindeutige Kennung für die Transformation.

  • TaskRunId – UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

    Die eindeutige Kennung für diese Aufgabenausführung.

  • Status – UTF-8-Zeichenfolge (zulässige Werte: STARTING | RUNNING | STOPPING | STOPPED | SUCCEEDED | FAILED | TIMEOUT).

    Der aktuelle Status der angeforderten Aufgabenausführung.

  • LogGroupName – UTF-8-Zeichenfolge.

    Die Namen der Protokollgruppe für die sichere Protokollierung, dieser Aufgabenausführung zugeordnet ist.

  • Properties – Ein TaskRunEigenschaften-Objekt.

    Gibt die dieser Aufgabenausführung zugeordneten Konfigurationseigenschaften an.

  • ErrorString – UTF-8-Zeichenfolge.

    Die Liste der Fehlerzeichenfolgen im Zusammenhang mit dieser Aufgabenausführung.

  • StartedOn – Zeitstempel.

    Das Datum und die Uhrzeit, zu der diese Aufgabenausführung gestartet wurde.

  • LastModifiedOn – Zeitstempel.

    Der Zeitpunkt, an dem die angeforderte Aufgabenausführung zuletzt aktualisiert wurde.

  • CompletedOn – Zeitstempel.

    Der Zeitpunkt, an dem die angeforderte Aufgabenausführung zuletzt abgeschlossen wurde.

  • ExecutionTime – Zahl (Ganzzahl).

    Die Zeit (in Sekunden), in der durch die Aufgabenausführung Ressourcen verbraucht wurden.

TransformFilterCriteria Struktur

Die Kriterien zum Filtern der Machine Learning-Transformationen.

Felder
  • Name – UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

    Eine eindeutiger Transformationsname, der zum Filtern der Machine Learning-Transformationen verwendet wird.

  • TransformType – UTF-8-Zeichenfolge (zulässige Werte: FIND_MATCHES).

    Der Typ der Machine Learning-Transformation, der zum Filtern der Machine-Learning-Transformationen verwendet wird.

  • Status – UTF-8-Zeichenfolge (zulässige Werte: NOT_READY | READY | DELETING).

    Filtert die Liste der Machine Learning-Transformationen nach dem letzten bekannten Status der Transformationen (um anzugeben, ob eine Transformation verwendet werden kann). Möglich sind „NOT_READY“, „READY“ oder „DELETING“.

  • GlueVersion – UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Custom string pattern #20.

    Dieser Wert bestimmt, mit welcher Version AWS Glue dieser Transformation für maschinelles Lernen kompatibel ist. Glue 1.0 wird für die meisten Kunden empfohlen. Wenn der Wert nicht festgelegt ist, wird die Glue-Kompatibilität standardmäßig auf Glue 0.9 gesetzt. Weitere Informationen finden Sie unter AWS Glue -Versionen im Entwicklerhandbuch.

  • CreatedBefore – Zeitstempel.

    Das Datum und die Uhrzeit, zu der die Transformationen erstellt wurden.

  • CreatedAfter – Zeitstempel.

    Das Datum und die Uhrzeit, nach der die Transformationen erstellt wurden.

  • LastModifiedBefore – Zeitstempel.

    Filtert nach Transformationen, die zuletzt vor diesem Datum geändert wurden.

  • LastModifiedAfter – Zeitstempel.

    Filter nach Transformationen, die zuletzt nach diesem Datum gefiltert wurden.

  • Schema – Ein Array mit SchemaColumn-Objekten, nicht mehr als 100 Strukturen.

    Filtert nach Datensätzen mit einem bestimmten Schema. Das Objekt Map<Column, Type>ist ein Array von Schlüssel-Wert-Paaren, die das von dieser Transformation akzeptierte Schema repräsentieren. Dabei ist Column der Name einer Spalte und Type der Datentyp, z. B. eine Ganzzahl oder eine Zeichenfolge. Hat eine Obergrenze von 100 Spalten.

TransformSortCriteria Struktur

Die Sortierkriterien im Zusammenhang mit der Machine Learning-Transformation.

Felder
  • ColumnErforderlich: UTF-8-Zeichenfolge (zulässige Werte: NAME | TRANSFORM_TYPE | STATUS | CREATED | LAST_MODIFIED).

    Die in den Sortierkriterien im Zusammenhang mit der Machine Learning-Transformation zu verwendende Spalte.

  • SortDirectionErforderlich: UTF-8-Zeichenfolge (zulässige Werte: DESCENDING | ASCENDING).

    Die in den Sortierkriterien im Zusammenhang mit der Machine Learning-Transformation zu verwendende Sortierreihenfolge.

TaskRunFilterCriteria Struktur

Die Kriterien, die zum Filtern der Aufgabenausführungen für die Machine Learning-Transformation verwendet werden.

Felder
  • TaskRunType – UTF-8-Zeichenfolge (zulässige Werte: EVALUATION | LABELING_SET_GENERATION | IMPORT_LABELS | EXPORT_LABELS | FIND_MATCHES).

    Der Typ der Aufgabenausführung.

  • Status – UTF-8-Zeichenfolge (zulässige Werte: STARTING | RUNNING | STOPPING | STOPPED | SUCCEEDED | FAILED | TIMEOUT).

    Der aktuelle Status der Aufgabenausführung.

  • StartedBefore – Zeitstempel.

    Filtert nach Aufgabenausführungen, die vor diesem Datum gestartet wurden.

  • StartedAfter – Zeitstempel.

    Filtert nach Aufgabenausführungen, die nach diesem Datum gestartet wurden.

TaskRunSortCriteria Struktur

Die Sortierkriterien, die zum Sortieren der Liste von Aufgabenausführungen für die Machine Learning-Transformation verwendet werden.

Felder
  • ColumnErforderlich: UTF-8-Zeichenfolge (zulässige Werte: TASK_RUN_TYPE | STATUS | STARTED).

    Die Spalte, die zum Sortieren der Liste von Aufgabenausführungen für die Machine Learning-Transformation verwendet werden soll.

  • SortDirectionErforderlich: UTF-8-Zeichenfolge (zulässige Werte: DESCENDING | ASCENDING).

    Die Sortierreihenfolge, die zum Sortieren der Liste von Aufgabenausführungen für die Machine Learning-Transformation verwendet werden soll.

TaskRunProperties Struktur

Die Konfigurationseigenschaften für die Aufgabenausführung.

Felder
  • TaskType – UTF-8-Zeichenfolge (zulässige Werte: EVALUATION | LABELING_SET_GENERATION | IMPORT_LABELS | EXPORT_LABELS | FIND_MATCHES).

    Der Typ der Aufgabenausführung.

  • ImportLabelsTaskRunProperties – Ein ImportLabelsTaskRunEigenschaften-Objekt.

    Die Konfigurationseigenschaften für eine Aufgabenausführung zum Importieren von Labels.

  • ExportLabelsTaskRunProperties – Ein ExportLabelsTaskRunEigenschaften-Objekt.

    Die Konfigurationseigenschaften für eine Aufgabenausführung zum Exportieren von Labels.

  • LabelingSetGenerationTaskRunProperties – Ein LabelingSetGenerationTaskRunProperties-Objekt.

    Die Konfigurationseigenschaften für eine Aufgabenausführung zum Generieren eines Labeling-Satzes.

  • FindMatchesTaskRunProperties – Ein FindMatchesTaskRunEigenschaften-Objekt.

    Die Konfigurationseigenschaften für eine Aufgabenausführung zur Suche nach Übereinstimmungen.

FindMatchesTaskRunProperties Struktur

Gibt Konfigurationseigenschaften für eine Aufgabenausführung zur Suche nach Übereinstimmungen an.

Felder
  • JobId – UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

    Die Auftrags-ID für die Aufgabenausführung zur Suche nach Übereinstimmungen.

  • JobName – UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

    Der Name, der dem Auftrag für die Aufgabenausführung zur Suche nach Übereinstimmungen zugewiesen ist.

  • JobRunId – UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

    Die Auftragsausführungs-ID für die Aufgabenausführung zur Suche nach Übereinstimmungen.

ImportLabelsTaskRunProperties Struktur

Gibt die Konfigurationseigenschaften für eine Aufgabenausführung zum Importieren von Labels an.

Felder
  • InputS3Path – UTF-8-Zeichenfolge.

    Der Amazon Simple Storage Service (Amazon S3)-Pfad, aus dem Sie Labels importieren.

  • Replace – Boolesch.

    Gibt an, ob Ihre vorhandenen Bezeichnungen überschrieben werden sollen.

ExportLabelsTaskRunProperties Struktur

Gibt die Konfigurationseigenschaften für eine Aufgabenausführung zum Exportieren von Bezeichnungen an.

Felder
  • OutputS3Path – UTF-8-Zeichenfolge.

    Der Amazon Simple Storage Service (Amazon S3) -Pfad, in den Sie die Bezeichnungen exportieren.

LabelingSetGenerationTaskRunProperties Struktur

Gibt Konfigurationseigenschaften für eine Aufgabenausführung zum Generieren eines Labeling-Satzes an.

Felder
  • OutputS3Path – UTF-8-Zeichenfolge.

    Der Amazon Simple Storage Service (Amazon S3)-Pfad, in dem Sie den Labeling-Satz generieren.

SchemaColumn Struktur

Ein Schlüssel-Wert-Paar, durch das eine Spalte und ein Datentyp repräsentiert werden, für die diese Transformation ausgeführt werden kann. Der Parameter Schema der MLTransform kann bis zu 100 dieser Strukturen enthalten.

Felder
  • Name – UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 1024 Bytes lang, passend zum Single-line string pattern.

    Der Name der Spalte.

  • DataType – UTF-8-Zeichenfolge, nicht mehr als 131 072 Bytes lang, passend zum Single-line string pattern.

    Die Art von Daten in der Spalte.

TransformEncryption Struktur

Die encryption-at-rest Einstellungen der Transformation, die für den Zugriff auf Benutzerdaten gelten. Machine-Learning-Transformationen können mithilfe von KMS auf in Amazon S3 verschlüsselte Benutzerdaten zugreifen.

Darüber hinaus können importierte Labels und trainierte Transformationen jetzt mit einem vom Kunden bereitgestellten KMS-Schlüssel verschlüsselt werden.

Felder
  • MlUserDataEncryption – Ein UserDataML-Verschlüsselung-Objekt.

    Ein MLUserDataEncryption-Objekt, das den Verschlüsselungsmodus und die vom Kunden bereitgestellte KMS-Schlüssel-ID enthält.

  • TaskRunSecurityConfigurationName – UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

    Gibt den Namen der Sicherheitskonfiguration an.

UserDataEncryption ML-Struktur

Die encryption-at-rest Einstellungen der Transformation, die für den Zugriff auf Benutzerdaten gelten.

Felder
  • MlUserDataEncryptionModeErforderlich: UTF-8-Zeichenfolge (zulässige Werte: DISABLED | SSE-KMS="SSEKMS").

    Der Verschlüsselungsmodus, der auf Benutzerdaten angewendet wird. Gültige Werte für sind:

    • DEAKTIVIERT: Verschlüsselung ist deaktiviert

    • SSEKMS: Verwendung der serverseitigen Verschlüsselung mit AWS Key Management Service (SSE-KMS) für in Amazon S3 gespeicherte Benutzerdaten.

  • KmsKeyId – UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

    Die ID für den vom Kunden bereitgestellten KMS-Schlüssel.

ColumnImportance Struktur

Eine Struktur, die den Spaltennamen und die Spaltenbedeutung für eine Spalte enthält.

Anhand der Spaltenbedeutung können Sie verstehen, wie Spalten zu Ihrem Modell beitragen, indem Sie ermitteln, welche Spalten in Ihren Datensätzen wichtiger als andere sind.

Felder
  • ColumnName – UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

    Der Name einer Spalte.

  • Importance – Zahl (Double), nicht mehr als 1,0.

    Die Bewertung der Spaltenbedeutung als Dezimalzahl.

Operationen

Aktion CreateMLTransform (Python: create_ml_transform)

Erzeugt eine Transformation AWS Glue für maschinelles Lernen. Diese Operation erstellt die Transformation und alle erforderlichen Parameter, um sie zu trainieren.

Rufen Sie diese Operation als ersten Schritt bei dem Prozess für die Deduplizierung von Daten mithilfe einer Machine Learning-Transformation (z. B. der FindMatches-Transformation) auf. Zusätzlich zu den Parametern, die Sie für Ihren Algoritmus verwenden möchten, können Sie eine optionale Description angeben.

Sie müssen auch bestimmte Parameter für die Aufgaben angeben, die in Ihrem Namen AWS Glue ausgeführt werden, um aus Ihren Daten zu lernen und eine hochwertige Transformation für maschinelles Lernen zu erstellen. Zu diesen Parametern gehören Role und optional AllocatedCapacity, Timeout und MaxRetries. .Weitere Informationen hierzu finden Sie unter Aufträge

Anforderung
  • NameErforderlich: UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

    Der eindeutige Name, den Sie der Transformation beim Erstellen geben.

  • Description – Beschreibende Zeichenfolge, nicht mehr als 2048 Bytes lang, passend zum URI address multi-line string pattern.

    Eine Beschreibung der zu definierenden Machine Learning-Transformation. Der Standardwert ist eine leere Zeichenfolge.

  • InputRecordTablesErforderlich: Ein Array mit GlueTable-Objekten, nicht mehr als 10 Strukturen.

    Eine Liste der von der Transformation verwendeten AWS Glue Tabellendefinitionen.

  • ParametersErforderlich: Ein TransformParameters-Objekt.

    Die algorithmischen Parameter, die für den verwendeten Transformationstyp spezifisch sind. Bedingt abhängig vom Transformationstyp.

  • RoleErforderlich: UTF-8-Zeichenfolge.

    Der Name oder Amazon-Ressourcenname (ARN) der IAM-Rolle mit den erforderlichen Berechtigungen. Zu den erforderlichen Berechtigungen gehören sowohl AWS Glue Service-Rollenberechtigungen für AWS Glue Ressourcen als auch Amazon S3 S3-Berechtigungen, die für die Transformation erforderlich sind.

    • Diese Rolle benötigt AWS Glue Servicerollenberechtigungen, um den Zugriff auf Ressourcen in zu ermöglichen AWS Glue. Siehe Anfügen einer Richtlinie an IAM-Benutzer, die auf AWS Glue zugreifen.

    • Diese Rolle benötigt die Berechtigung für Ihre Amazon Simple Storage Service (Amazon S3)-Quellen, -Ziele, temporären Verzeichnisse und -Skripts sowie für beliebige Bibliotheken, die von der für diese Transformation ausgeführten Aufgabe genutzt werden.

  • GlueVersion – UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Custom string pattern #20.

    Dieser Wert bestimmt, mit welcher Version AWS Glue dieser Transformation für maschinelles Lernen kompatibel ist. Glue 1.0 wird für die meisten Kunden empfohlen. Wenn der Wert nicht festgelegt ist, wird die Glue-Kompatibilität standardmäßig auf Glue 0.9 gesetzt. Weitere Informationen finden Sie unter AWS Glue -Versionen im Entwicklerhandbuch.

  • MaxCapacity – Nummer (doppelt).

    Die Anzahl der AWS Glue Datenverarbeitungseinheiten (DPUs), die Aufgabenausführungen für diese Transformation zugewiesen sind. Sie können von 2 bis 100 DPUs zuweisen. Der Standardwert ist 10. Bei einer DPU handelt es sich um ein relatives Maß der Rechenleistung, die aus 4 vCPUs Rechenkapazität und 16 GB Arbeitsspeicher besteht. Weitere Informationen finden Sie in der AWS Glue Preisliste.

    MaxCapacity ist eine sich mit NumberOfWorkers und WorkerType ausschließende Option.

    • Wenn NumberOfWorkers oder WorkerType festgelegt ist, kann MaxCapacity nicht festgelegt werden.

    • Wenn MaxCapacity festgelegt ist, kann weder NumberOfWorkers noch WorkerType festgelegt werden.

    • Wenn WorkerType festgelegt ist, ist NumberOfWorkers erforderlich (und umgekehrt).

    • Für MaxCapacity und NumberOfWorkers muss der Wert mindestens 1 lauten.

    Wenn das Feld WorkerType auf einen anderen Wert als Standard gesetzt ist, wird das Feld MaxCapacity automatisch eingestellt und wird schreibgeschützt.

    Wenn das Feld WorkerType auf einen anderen Wert als Standard gesetzt ist, wird das Feld MaxCapacity automatisch eingestellt und wird schreibgeschützt.

  • WorkerType – UTF-8-Zeichenfolge (zulässige Werte: Standard="" | G.1X="" | G.2X="" | G.025X="" | G.4X="" | G.8X="" | Z.2X="").

    Der Typ des vordefinierten Workers, der zugeordnet wird, wenn diese Aufgabe ausgeführt wird. Akzeptiert den Wert Standard, G.1X oder G.2X.

    • Für den Worker-Typ Standard stellt jeder Worker 4 vCPUs, 16 GB Arbeitsspeicher und 50 GB Festplattenplatz sowie 2 Executors pro Worker bereit.

    • Für den Worker-Typ G.1X stellt jeder Worker 4 vCPUs, 16 GB Arbeitsspeicher und 64 GB Festplattenplatz sowie 1 Executor pro Worker bereit.

    • Für den Worker-Typ G.2X stellt jeder Worker 8 vCPUs, 32 GB Speicher und 128 GB Festplattenplatz sowie 1 Executor pro Worker bereit.

    MaxCapacity ist eine sich mit NumberOfWorkers und WorkerType ausschließende Option.

    • Wenn NumberOfWorkers oder WorkerType festgelegt ist, kann MaxCapacity nicht festgelegt werden.

    • Wenn MaxCapacity festgelegt ist, kann weder NumberOfWorkers noch WorkerType festgelegt werden.

    • Wenn WorkerType festgelegt ist, ist NumberOfWorkers erforderlich (und umgekehrt).

    • Für MaxCapacity und NumberOfWorkers muss der Wert mindestens 1 lauten.

  • NumberOfWorkers – Zahl (Ganzzahl).

    Die Anzahl der Worker eines definierten workerType, die zugewiesen werden, wenn diese Aufgabe ausgeführt wird.

    Wenn WorkerType festgelegt ist, ist NumberOfWorkers erforderlich (und umgekehrt).

  • Timeout – Zahl (ganze Zahl), mindestens 1.

    Das Timeout der Aufgabenausführung für diese Transformation in Minuten. Dies ist die maximale Zeit, für die eine Aufgabenausführung dieser Transformation Ressourcen verbrauchen kann, bevor sie beendet wird und in den Status TIMEOUT übergeht. Der Standardwert beträgt 2 880 Minuten (48 Stunden).

  • MaxRetries – Zahl (Ganzzahl).

    Die maximale Anzahl an Versuchen, eine Aufgabe für diese Transformation erneut zu versuchen, nachdem eine Aufgabenausführung fehlschlägt.

  • Tags – Ein Map-Array von Schlüssel-Wert-Paaren, nicht mehr als 50 Paare.

    Jeder Schlüssel ist eine UTF-8-Zeichenfolge, die nicht weniger als 1 oder mehr als 128 Bytes lang ist.

    Jeder Wert ist eine UTF-8-Zeichenfolge, die nicht mehr als 256 Bytes lang ist.

    Die Tags, die mit dieser Machine Learning-Transformation verwendet werden sollen. Sie können Tags verwenden, um den Zugriff auf die Machine Learning-Transformation zu beschränken. Weitere Informationen zu Tags in AWS Glue finden Sie unter AWS Tags in AWS Glue im Entwicklerhandbuch.

  • TransformEncryption – Ein TransformEncryption-Objekt.

    Die encryption-at-rest Einstellungen der Transformation, die für den Zugriff auf Benutzerdaten gelten. Machine-Learning-Transformationen können mithilfe von KMS auf in Amazon S3 verschlüsselte Benutzerdaten zugreifen.

Antwort
  • TransformId – UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

    Eine eindeutige Kennung, die für die Transformation generiert wird.

Fehler
  • AlreadyExistsException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

  • AccessDeniedException

  • ResourceNumberLimitExceededException

  • IdempotentParameterMismatchException

Aktion UpdateMLTransform (Python: update_ml_transform)

Aktualisiert eine bestehende Machine Learning-Transformation. Rufen Sie diese Operation zur Optimierung der Algorithmusparameter auf, um bessere Ergebnisse zu erzielen.

Nach dem Aufruf dieser Operation können Sie die Operation StartMLEvaluationTaskRun aufrufen, um zu bewerten, wie gut Ihre Ziele (z. B. Verbessern der Qualität oder Kostenwirksamkeit Ihrer Machine Learning-Transformation) mit Ihren neuen Parametern erreicht wurden.

Anforderung
  • TransformIdErforderlich: UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

    Eine eindeutige Kennung, die beim Erstellen der Transformation generiert wurde.

  • Name – UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

    Der eindeutige Name, den Sie der Transformation beim Erstellen gegeben haben.

  • Description – Beschreibende Zeichenfolge, nicht mehr als 2048 Bytes lang, passend zum URI address multi-line string pattern.

    Eine Beschreibung der Transformation. Der Standardwert ist eine leere Zeichenfolge.

  • Parameters – Ein TransformParameters-Objekt.

    Die Konfigurationsparameter, die für den verwendeten Transformationstyp (Algorithmus) spezifisch sind. Bedingt abhängig vom Transformationstyp.

  • Role – UTF-8-Zeichenfolge.

    Der Name oder Amazon-Ressourcenname (ARN) der IAM-Rolle mit den erforderlichen Berechtigungen.

  • GlueVersion – UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Custom string pattern #20.

    Dieser Wert bestimmt, mit welcher Version AWS Glue dieser Transformation für maschinelles Lernen kompatibel ist. Glue 1.0 wird für die meisten Kunden empfohlen. Wenn der Wert nicht festgelegt ist, wird die Glue-Kompatibilität standardmäßig auf Glue 0.9 gesetzt. Weitere Informationen finden Sie unter AWS Glue -Versionen im Entwicklerhandbuch.

  • MaxCapacity – Nummer (doppelt).

    Die Anzahl der AWS Glue Datenverarbeitungseinheiten (DPUs), die Aufgabenausführungen für diese Transformation zugewiesen sind. Sie können von 2 bis 100 DPUs zuweisen. Der Standardwert ist 10. Bei einer DPU handelt es sich um ein relatives Maß der Rechenleistung, die aus 4 vCPUs Rechenkapazität und 16 GB Arbeitsspeicher besteht. Weitere Informationen finden Sie in der AWS Glue Preisliste.

    Wenn das Feld WorkerType auf einen anderen Wert als Standard gesetzt ist, wird das Feld MaxCapacity automatisch eingestellt und wird schreibgeschützt.

  • WorkerType – UTF-8-Zeichenfolge (zulässige Werte: Standard="" | G.1X="" | G.2X="" | G.025X="" | G.4X="" | G.8X="" | Z.2X="").

    Der Typ des vordefinierten Workers, der zugeordnet wird, wenn diese Aufgabe ausgeführt wird. Akzeptiert den Wert Standard, G.1X oder G.2X.

    • Für den Worker-Typ Standard stellt jeder Worker 4 vCPUs, 16 GB Arbeitsspeicher und 50 GB Festplattenplatz sowie 2 Executors pro Worker bereit.

    • Für den Worker-Typ G.1X stellt jeder Worker 4 vCPUs, 16 GB Arbeitsspeicher und 64 GB Festplattenplatz sowie 1 Executor pro Worker bereit.

    • Für den Worker-Typ G.2X stellt jeder Worker 8 vCPUs, 32 GB Speicher und 128 GB Festplattenplatz sowie 1 Executor pro Worker bereit.

  • NumberOfWorkers – Zahl (Ganzzahl).

    Die Anzahl der Worker eines definierten workerType, die zugewiesen werden, wenn diese Aufgabe ausgeführt wird.

  • Timeout – Zahl (ganze Zahl), mindestens 1.

    Das Zeitlimit für eine Aufgabenausführung dieser Transformation in wenigen Minuten. Dies ist die maximale Zeit, für die eine Aufgabenausführung dieser Transformation Ressourcen verbrauchen kann, bevor sie beendet wird und in den Status TIMEOUT übergeht. Der Standardwert beträgt 2 880 Minuten (48 Stunden).

  • MaxRetries – Zahl (Ganzzahl).

    Die maximale Anzahl an Versuchen, eine Aufgabe für diese Transformation erneut zu versuchen, nachdem eine Aufgabenausführung fehlschlägt.

Antwort
  • TransformId – UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

    Die eindeutige Kennung für die Transformation, die aktualisiert wurde.

Fehler
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

  • AccessDeniedException

Aktion DeleteMLTransform (Python: delete_ml_transform)

Löscht eine Transformation für AWS Glue maschinelles Lernen. Machine Learning-Transformationen sind eine besondere Art von Transformation, die mithilfe von Machine Learning die Details der auszuführenden Transformation erlernen, indem sie von Beispielen lernen, die von Menschen bereitgestellt werden. Diese Transformationen werden dann von gespeichert. AWS Glue Wenn Sie eine Transformationsdatei nicht mehr benötigen, können Sie sie löschen, indem Sie DeleteMLTransforms aufrufen. Alle AWS Glue Jobs, die immer noch auf die gelöschte Transformation verweisen, sind jedoch nicht mehr erfolgreich.

Anforderung
  • TransformIdErforderlich: UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

    Die eindeutige Kennung der zu löschenden Transformation.

Antwort
  • TransformId – UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

    Die eindeutige Kennung der Transformation, die gelöscht wurde.

Fehler
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

Aktion GetMLTransform (Python: get_ml_transform)

Ruft ein Transformationsartefakt für AWS Glue maschinelles Lernen und alle zugehörigen Metadaten ab. Machine Learning-Transformationen sind eine besondere Art von Transformation, die mithilfe von Machine Learning die Details der auszuführenden Transformation erlernen, indem sie von Beispielen lernen, die von Menschen bereitgestellt werden. Diese Transformationen werden dann von gespeichert. AWS Glue Sie können ihre Metadaten abrufen, indem Sie GetMLTransform aufrufen.

Anforderung
  • TransformIdErforderlich: UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

    Die eindeutige Kennung der Transformation, der zu dem Zeitpunkt generiert wurde, als die Transformation erstellt wurde.

Antwort
  • TransformId – UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

    Die eindeutige Kennung der Transformation, der zu dem Zeitpunkt generiert wurde, als die Transformation erstellt wurde.

  • Name – UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

    Der eindeutige Name, den die Transformation erhielt, als sie erstellt wurde.

  • Description – Beschreibende Zeichenfolge, nicht mehr als 2048 Bytes lang, passend zum URI address multi-line string pattern.

    Eine Beschreibung der Transformation.

  • Status – UTF-8-Zeichenfolge (zulässige Werte: NOT_READY | READY | DELETING).

    Der letzte bekannte Status der Transformation (um anzugeben, ob sie verwendet werden kann). Möglich sind „NOT_READY“, „READY“ oder „DELETING“.

  • CreatedOn – Zeitstempel.

    Das Datum und die Uhrzeit, zu der die Transformierung erstellt wurde.

  • LastModifiedOn – Zeitstempel.

    Das Datum und die Uhrzeit, zu der die Transformation zuletzt geändert wurde.

  • InputRecordTables – Ein Array mit GlueTable-Objekten, nicht mehr als 10 Strukturen.

    Eine Liste der von der Transformation verwendeten AWS Glue Tabellendefinitionen.

  • Parameters – Ein TransformParameters-Objekt.

    Die Konfigurationsparameter, die für den verwendeten Algorithmus spezifisch sind.

  • EvaluationMetrics – Ein EvaluationMetrics-Objekt.

    Die neueste Auswertungsmetriken.

  • LabelCount – Zahl (Ganzzahl).

    Die Anzahl der für diese Transformation verfügbaren Labels.

  • Schema – Ein Array mit SchemaColumn-Objekten, nicht mehr als 100 Strukturen.

    Das Map<Column, Type>-Objekt, durch das das Schema repräsentiert wird, das von dieser Transformation akzeptiert wird. Hat eine Obergrenze von 100 Spalten.

  • Role – UTF-8-Zeichenfolge.

    Der Name oder Amazon-Ressourcenname (ARN) der IAM-Rolle mit den erforderlichen Berechtigungen.

  • GlueVersion – UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Custom string pattern #20.

    Dieser Wert bestimmt, mit welcher Version AWS Glue dieser Transformation für maschinelles Lernen kompatibel ist. Glue 1.0 wird für die meisten Kunden empfohlen. Wenn der Wert nicht festgelegt ist, wird die Glue-Kompatibilität standardmäßig auf Glue 0.9 gesetzt. Weitere Informationen finden Sie unter AWS Glue -Versionen im Entwicklerhandbuch.

  • MaxCapacity – Nummer (doppelt).

    Die Anzahl der AWS Glue Datenverarbeitungseinheiten (DPUs), die Aufgabenausführungen für diese Transformation zugewiesen sind. Sie können von 2 bis 100 DPUs zuweisen. Der Standardwert ist 10. Bei einer DPU handelt es sich um ein relatives Maß der Rechenleistung, die aus 4 vCPUs Rechenkapazität und 16 GB Arbeitsspeicher besteht. Weitere Informationen finden Sie in der AWS Glue Preisliste.

    Wenn das Feld WorkerType auf einen anderen Wert als Standard gesetzt ist, wird das Feld MaxCapacity automatisch eingestellt und wird schreibgeschützt.

  • WorkerType – UTF-8-Zeichenfolge (zulässige Werte: Standard="" | G.1X="" | G.2X="" | G.025X="" | G.4X="" | G.8X="" | Z.2X="").

    Der Typ des vordefinierten Workers, der zugeordnet wird, wenn diese Aufgabe ausgeführt wird. Akzeptiert den Wert Standard, G.1X oder G.2X.

    • Für den Worker-Typ Standard stellt jeder Worker 4 vCPUs, 16 GB Arbeitsspeicher und 50 GB Festplattenplatz sowie 2 Executors pro Worker bereit.

    • Für den Worker-Typ G.1X stellt jeder Worker 4 vCPUs, 16 GB Arbeitsspeicher und 64 GB Festplattenplatz sowie 1 Executor pro Worker bereit.

    • Für den Worker-Typ G.2X stellt jeder Worker 8 vCPUs, 32 GB Speicher und 128 GB Festplattenplatz sowie 1 Executor pro Worker bereit.

  • NumberOfWorkers – Zahl (Ganzzahl).

    Die Anzahl der Worker eines definierten workerType, die zugewiesen werden, wenn diese Aufgabe ausgeführt wird.

  • Timeout – Zahl (ganze Zahl), mindestens 1.

    Das Zeitlimit für eine Aufgabenausführung dieser Transformation in wenigen Minuten. Dies ist die maximale Zeit, für die eine Aufgabenausführung dieser Transformation Ressourcen verbrauchen kann, bevor sie beendet wird und in den Status TIMEOUT übergeht. Der Standardwert beträgt 2 880 Minuten (48 Stunden).

  • MaxRetries – Zahl (Ganzzahl).

    Die maximale Anzahl an Versuchen, eine Aufgabe für diese Transformation erneut zu versuchen, nachdem eine Aufgabenausführung fehlschlägt.

  • TransformEncryption – Ein TransformEncryption-Objekt.

    Die encryption-at-rest Einstellungen der Transformation, die für den Zugriff auf Benutzerdaten gelten. Machine-Learning-Transformationen können mithilfe von KMS auf in Amazon S3 verschlüsselte Benutzerdaten zugreifen.

Fehler
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

Aktion GetMLTransforms (Python: get_ml_transforms)

Ruft eine sortierbare, filterbare Liste vorhandener Transformationen für AWS Glue maschinelles Lernen ab. Machine Learning-Transformationen sind eine besondere Art von Transformation, die mithilfe von Machine Learning die Details der auszuführenden Transformation erlernen, indem sie von Beispielen lernen, die von Menschen bereitgestellt werden. Diese Transformationen werden dann von gespeichert AWS Glue, und Sie können ihre Metadaten abrufen, indem Sie aufrufen. GetMLTransforms

Anforderung
  • NextToken – UTF-8-Zeichenfolge.

    Ein paginiertes Token zum Ausgleich der Ergebnisse.

  • MaxResults – Zahl (Ganzzahl), nicht kleiner als 1 oder größer als 1000.

    Die maximale Anzahl der auszugebenden Ergebnisse.

  • Filter – Ein TransformFilterKriterien-Objekt.

    Die Filterkritieren der Transformation.

  • Sort – Ein TransformSortKriterien-Objekt.

    Die Sortierkriterien.

Antwort
  • TransformsErforderlich: Ein Array mit MLTransform-Objekten.

    Eine Liste der Machine Learning-Transformationen.

  • NextToken – UTF-8-Zeichenfolge.

    Ein Paginierungs-Token, falls mehr Ergebnisse verfügbar sind.

Fehler
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

ListMLTransforms Action (Python: list_ml_transforms)

Ruft eine sortierbare, filterbare Liste vorhandener Transformationen für AWS Glue maschinelles Lernen in diesem AWS Konto oder der Ressourcen mit dem angegebenen Tag ab. Diese Operation akzeptiert das optionale Tags-Feld, das Sie als Filter der Antworten verwenden können, sodass markierte Ressourcen als Gruppe abgerufen werden können. Wenn Sie die Tag-Filterung verwenden, werden nur Ressourcen mit den Tags abgerufen.

Anforderung
  • NextToken – UTF-8-Zeichenfolge.

    Ein Fortsetzungs-Token, wenn dies eine Fortsetzungsanforderung ist.

  • MaxResults – Zahl (Ganzzahl), nicht kleiner als 1 oder größer als 1000.

    Die maximale Größe der auszugebenden Liste.

  • Filter – Ein TransformFilterKriterien-Objekt.

    Ein TransformFilterCriteria zum Filtern der Machine Learning-Transformationen.

  • Sort – Ein TransformSortKriterien-Objekt.

    A TransformSortCriteria zum Sortieren der Machine Learning-Transformationen.

  • Tags – Ein Map-Array von Schlüssel-Wert-Paaren, nicht mehr als 50 Paare.

    Jeder Schlüssel ist eine UTF-8-Zeichenfolge, die nicht weniger als 1 oder mehr als 128 Bytes lang ist.

    Jeder Wert ist eine UTF-8-Zeichenfolge, die nicht mehr als 256 Bytes lang ist.

    Gibt an, das nur diese markierten Ressourcen zurückgegeben werden sollen.

Antwort
  • TransformIdsErforderlich: Ein Array von UTF-8-Zeichenketten.

    Die IDs (Kennungen) aller Machine Learning-Transformationen in dem Konto oder die Machine Learning-Transformationen mit den angegebenen Tags.

  • NextToken – UTF-8-Zeichenfolge.

    Ein Fortsetzungs-Token, wenn die zurückgegebene Liste die letzte verfügbare Metrik nicht enthält.

Fehler
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

EvaluationTaskRun StartML-Aktion (Python: start_ml_evaluation_task_run)

Startet eine Aufgabe zur Schätzung der Qualität der Transformation.

Wenn Sie Labelsätze als Wahrheitsbeispiele angeben, verwendet das AWS Glue maschinelle Lernen einige dieser Beispiele, um daraus zu lernen. Die restlichen Labels werden zum Testen der Schätzungsqualität verwendet.

Gibt eine eindeutige Kennung für die Ausführung zurück. Sie können GetMLTaskRun aufrufen, um weitere Informationen über die Statistiken des EvaluationTaskRun zu erhalten.

Anforderung
  • TransformIdErforderlich: UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

    Die eindeutige Kennung der Machine Learning-Transformation.

Antwort
  • TaskRunId – UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

    Die dieser Ausführung zugeordnete eindeutige Kennung.

Fehler
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

  • ConcurrentRunsExceededException

  • MLTransformNotReadyException

LabelingSetGenerationTaskRun StartML-Aktion (Python: start_ml_labeling_set_generation_task_run)

Startet den aktiven Learning-Workflow für Ihre Machine Learning-Transformation, um die Qualität der Transformation durch Generieren von Label-Sätzen und Hinzufügen von Labels zu verbessern.

Nach Abschluss von StartMLLabelingSetGenerationTaskRun hat AWS Glue einen Labeling-Satz oder einen Satz von Fragen zur Beantwortung durch Menschen generiert.

Im Falle der Transformation FindMatches stellen sich in etwa folgende Fragen: „Wie lassen sich diese Zeilen richtig als Gruppen zusammen gruppieren, die ausschließlich aus übereinstimmenden Datensätze bestehen?“

Nachdem der Labeling-Prozess abgeschlossen wurde, können Sie Ihre Labels mit einem Aufruf in die StartImportLabelsTaskRun hochladen. Nachdem die StartImportLabelsTaskRun abgeschlossen wurde, verwenden alle zukünftigen Ausführungen der Machine Learning-Transformation die neuen und verbesserten Labels und führen eine Transformation mit höherer Qualität durch.

Anforderung
  • TransformIdErforderlich: UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

    Die eindeutige Kennung der Machine Learning-Transformation.

  • OutputS3PathErforderlich: UTF-8-Zeichenfolge.

    Der Amazon Simple Storage Service (Amazon S3)-Pfad, in dem Sie das Labeling-Set generieren.

Antwort
  • TaskRunId – UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

    Die eindeutige Ausführungskennung, die dieser Aufgabe zugeordnet ist.

Fehler
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

  • ConcurrentRunsExceededException

TaskRun GetML-Aktion (Python: get_ml_task_run)

Ruft Details für eine bestimmte Aufgabenausführung für eine Machine Learning-Transformation ab. Aufgabenausführungen für maschinelles Lernen sind asynchrone Aufgaben, die in Ihrem Namen als Teil verschiedener Workflows für maschinelles Lernen AWS Glue ausgeführt werden. Sie können die Statistiken jeder beliebigen Aufgabenausführung überprüfen, indem Sie die GetMLTaskRun mit der TaskRunID und der TransformID seiner übergeordneten Transformation aufrufen.

Anforderung
  • TransformIdErforderlich: UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

    Die eindeutige Kennung der Machine Learning-Transformation.

  • TaskRunIdErforderlich: UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

    Die eindeutige Kennung der Aufgabenausführung.

Antwort
  • TransformId – UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

    Die eindeutige Kennung der Aufgabenausführung.

  • TaskRunId – UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

    Die dieser Ausführung zugeordnete eindeutige Kennung.

  • Status – UTF-8-Zeichenfolge (zulässige Werte: STARTING | RUNNING | STOPPING | STOPPED | SUCCEEDED | FAILED | TIMEOUT).

    Der Status für diese Aufgabenausführung.

  • LogGroupName – UTF-8-Zeichenfolge.

    Die Namen der Protokollgruppen, die der Aufgabenausführung zugeordnet sind.

  • Properties – Ein TaskRunEigenschaften-Objekt.

    Die Liste der Eigenschaften, die der Aufgabenausführung zugeordnet sind.

  • ErrorString – UTF-8-Zeichenfolge.

    Die Fehlerzeichenfolgen, die der Aufgabenausführung zugeordnet sind.

  • StartedOn – Zeitstempel.

    Das Datum und die Uhrzeit, zu der diese Aufgabenausführung gestartet wurde.

  • LastModifiedOn – Zeitstempel.

    Das Datum und die Uhrzeit, zu der diese Aufgabe zuletzt geändert wurde.

  • CompletedOn – Zeitstempel.

    Das Datum und die Uhrzeit, zu der diese Aufgabenausführung abgeschlossen wurde.

  • ExecutionTime – Zahl (Ganzzahl).

    Die Zeit (in Sekunden), in der durch die Aufgabenausführung Ressourcen verbraucht wurden.

Fehler
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

TaskRuns GetML-Aktion (Python: get_ml_task_runs)

Ruft eine Liste der Ausführungen für eine Machine Learning-Transformation ab. Aufgabenausführungen für maschinelles Lernen sind asynchrone Aufgaben, die in Ihrem Namen als Teil verschiedener Workflows für maschinelles Lernen AWS Glue ausgeführt werden. Sie erhalten eine sortierbare, filterbare Liste der Machine Learning-Aufgabenausführungen, indem Sie GetMLTaskRuns mit der TransformID ihrer übergeordneten Transformation und anderen optionalen Parametern wie in diesem Abschnitt dokumentiert aufrufen.

Diese Operation gibt eine Liste der historischen Ausführungen zurück und muss paginiert werden.

Anforderung
  • TransformIdErforderlich: UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

    Die eindeutige Kennung der Machine Learning-Transformation.

  • NextToken – UTF-8-Zeichenfolge.

    Ein Token für die Paginierung der Ergebnisse. Der Standardwert ist leer.

  • MaxResults – Zahl (Ganzzahl), nicht kleiner als 1 oder größer als 1000.

    Die maximale Anzahl der auszugebenden Ergebnisse.

  • Filter – Ein TaskRunFilterCriteria-Objekt.

    Die Filterkriterien in der TaskRunFilterCriteria-Struktur für die Aufgabenausführung.

  • Sort – Ein TaskRunSortCriteria-Objekt.

    Die Sortierungskriterien in der TaskRunSortCriteria-Struktur für die Aufgabenausführung.

Antwort
  • TaskRuns – Ein Array mit TaskRun-Objekten.

    Eine Liste von Aufgabenausführungen, die der Transformation zugeordnet sind.

  • NextToken – UTF-8-Zeichenfolge.

    Ein Paginierungs-Token, falls mehr Ergebnisse verfügbar sind.

Fehler
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

TaskRun CancelML-Aktion (Python: cancel_ml_task_run)

Storniert (stoppt) eine Aufgabenausführung. Aufgabenausführungen für maschinelles Lernen sind asynchrone Aufgaben, die in Ihrem Namen als Teil verschiedener Workflows für maschinelles Lernen AWS Glue ausgeführt werden. Sie können eine Machine Learning-Aufgabenausführung jederzeit stornieren, indem Sie CancelMLTaskRun mit der TransformID der übergeordneten Transformation der Aufgabenausführung und und die TaskRunId der Aufgabenausführung aufrufen.

Anforderung
  • TransformIdErforderlich: UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

    Die eindeutige Kennung der Machine Learning-Transformation.

  • TaskRunIdErforderlich: UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

    Eine eindeutige Kennung für die Aufgabenausführung.

Antwort
  • TransformId – UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

    Die eindeutige Kennung der Machine Learning-Transformation.

  • TaskRunId – UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

    Eine eindeutige Kennung für die Aufgabenausführung.

  • Status – UTF-8-Zeichenfolge (zulässige Werte: STARTING | RUNNING | STOPPING | STOPPED | SUCCEEDED | FAILED | TIMEOUT).

    Der Status für diese Ausführung.

Fehler
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

StartExportLabelsTaskRun Aktion (Python: start_export_labels_task_run)

Startet eine asynchrone Aufgabe zum Exportieren aller gelabelten Daten für eine bestimmte Transformation. Diese Aufgabe ist der einzige Label-bezogene API-Aufruf, der nicht Teil des typischen aktiven Learning-Workflows ist. In der Regel verwenden Sie StartExportLabelsTaskRun, wenn Sie mit allen Ihren vorhandenen Labels gleichzeitig zusammenarbeiten möchten, wie beispielsweise, wenn Sie Labels entfernen oder ändern möchten, die zuvor als realistische Daten übertragen wurden. Diese API-Operation akzeptiert die TransformId, deren Labels Sie exportieren möchten, und einen Amazon Simple Storage Service (Amazon S3)-Pfad, in den die Labels exportiert werden sollen. Die Operation gibt eine TaskRunId zurück. Sie können den Status Ihrer Aufgabenausführung durch Aufruf der GetMLTaskRun-API überprüfen.

Anforderung
  • TransformIdErforderlich: UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

    Die eindeutige Kennung der Machine Learning-Transformation.

  • OutputS3PathErforderlich: UTF-8-Zeichenfolge.

    Der Amazon S3-Pfad, in den Sie die Labels exportieren.

Antwort
  • TaskRunId – UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

    Eine eindeutige Kennung für die Aufgabenausführung.

Fehler
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

StartImportLabelsTaskRun Aktion (Python: start_import_labels_task_run)

Ermöglicht Ihnen die Angabe zusätzlicher Labels (realistischer Beispiele), anhand denen die Machine-Learning-Transformation lernen und ihre Qualität verbessern kann. Diese API-Operation wird allgemein als Teil des aktiven Learning-Workflows verwendet, der mit dem StartMLLabelingSetGenerationTaskRun-Aufruf beginnt und letztendlich zur Verbesserung der Qualität Ihrer Machine Learning-Transformation führt.

Bei Abschluss von StartMLLabelingSetGenerationTaskRun hat AWS Glue Machine Learning eine Reihe von Fragen zur Beantwortung durch Menschen generiert. (Die Beantwortung dieser Fragen wird häufig als 'Labeling' in den Machine Learning-Workflows bezeichnet). Im Falle der Transformation FindMatches stellen sich in etwa folgende Fragen: „Wie lassen sich diese Zeilen richtig als Gruppen zusammen gruppieren, die ausschließlich aus übereinstimmenden Datensätze bestehen?“ Nachdem der Labeling-Prozess abgeschlossen ist, laden Benutzer ihre Antworten/Labels mit einem Aufruf in StartImportLabelsTaskRun hoch. Nach Abschluss von StartImportLabelsTaskRun verwenden alle zukünftigen Ausführungen der Machine Learning-Transformation die neuen und verbesserten Labels und führen eine Transformation mit höherer Qualität durch.

Standardmäßig lernt StartMLLabelingSetGenerationTaskRun kontinuierlich von allen Labels, die Sie hochladen, und kombiniert diese miteinander, sofern Sie Replace nicht auf „true“ setzen. Wenn Sie Replace auf „true“ setzen, löscht und vergisst StartImportLabelsTaskRun alle zuvor hochgeladenen Labels und lernt nur von dem exakten Satz, den Sie hochladen. Das Ersetzen von Labels kann hilfreich sein, wenn Sie feststellen, dass Sie zuvor inkorrekte Labels hochgeladen haben und Sie der Ansicht sind, dass sie eine negative Auswirkung auf die Qualität der Transformation haben.

Sie können den Status Ihrer Aufgabe durch Aufrufen der Operation GetMLTaskRun überprüfen.

Anforderung
  • TransformIdErforderlich: UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

    Die eindeutige Kennung der Machine Learning-Transformation.

  • InputS3PathErforderlich: UTF-8-Zeichenfolge.

    Der Amazon Simple Storage Service (Amazon S3)-Pfad, aus dem Sie die Labels importieren.

  • ReplaceAllLabels – Boolesch.

    Gibt an, ob Ihre vorhandenen Bezeichnungen überschrieben werden sollen.

Antwort
  • TaskRunId – UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

    Eine eindeutige Kennung für die Aufgabenausführung.

Fehler
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • ResourceNumberLimitExceededException

  • InternalServiceException