Wir aktualisieren den Amazon Machine Learning Learning-Service nicht mehr und akzeptieren keine neuen Benutzer mehr dafür. Diese Dokumentation ist für bestehende Benutzer verfügbar, wir aktualisieren sie jedoch nicht mehr. Weitere Informationen finden Sie unterWas Amazon Machine Learning.
Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Neuordnung von Daten
Mit der Funktionalität Neuordnung von Daten können Sie eine Datenquelle erstellen, die lediglich auf einem Teil der Eingabedaten basiert, auf die sie verweist. Wenn Sie beispielsweise ein ML-Modell mit demErstellen eines ML-ModellsAssistenten auf der Amazon ML-Konsole und wählen Sie die Standard-Bewertungsoption. Amazon ML behält automatisch 30% Ihrer Daten für die ML-Modellauswertung und verwendet die übrigen 70% für die Schulung. Diese Funktionalität wird durch die -Funktion Neuordnung von Daten aktiviert.
Wenn Sie die Amazon ML-API verwenden, um Datenquellen zu erstellen, können Sie angeben, auf welchem Teil der Eingabedaten die neue Datenquelle basieren soll. Dazu übergeben Sie im Parameter DataRearrangement
Anweisungen an die APIs CreateDataSourceFromS3
CreateDataSourceFromRedshift
oder CreateDataSourceFromRDS
. Der Inhalt der DataRearrangement-Zeichenfolge ist eine JSON-Zeichenfolge, welche die Anfangs- und End-Standorte Ihrer Daten in Prozentsätzen, eine Ergänzungsmarkierung und eine Aufteilungsstrategie enthält. Die folgende DataRearrangement-Zeichenfolge gibt beispielsweise an, dass die ersten 70 % der Daten verwendet werden, um die Datenquelle zu erstellen:
{ "splitting": { "percentBegin": 0, "percentEnd": 70, "complement": false, "strategy": "sequential" } }
DataRearrangement-Parameter
Wenn Sie die Vorgehensweise bei der Erstellung von Datenquellen bei Amazon ML ändern möchten, verwenden Sie die folgenden Parameter.
- PercentBegin (Optional)
-
Verwenden Sie
percentBegin
, um anzugeben, wo die Daten für die Datenquelle beginnen. Wenn Sie nicht einschließenpercentBegin
undpercentEnd
enthält Amazon ML bei der Erstellung der Datenquelle alle Daten.Gültige Werte sind
0
bis einschließlich100
. - PercentEnd (Optional)
-
Verwenden Sie
percentEnd
, um anzugeben, wo die Daten für die Datenquelle enden. Wenn Sie nicht einschließenpercentBegin
undpercentEnd
enthält Amazon ML bei der Erstellung der Datenquelle alle Daten.Gültige Werte sind
0
bis einschließlich100
. - Complement (Optional)
-
Die
complement
Der Parameter weist Amazon ML an, Daten zu verwenden, die nicht im Bereich vonpercentBegin
zupercentEnd
um eine Datenquelle zu erstellen. Der Parametercomplement
ist nützlich, wenn Sie ergänzende Datenquellen zu Schulungs- und Auswertungszwecken erstellen müssen. Um eine ergänzende Datenquelle zu erstellen, verwenden Sie die gleichen Werte fürpercentBegin
undpercentEnd
mit dem Parametercomplement
.Die beiden folgenden Datenquellen teilen beispielsweise keine Daten und können verwendet werden, um ein Modell zu schulen und auszuwerten. Die erste Datenquelle besteht aus 25 % und die zweite aus 75 % der Daten.
Auswertungsdatenquelle:
{ "splitting":{ "percentBegin":0, "percentEnd":25 } }
Schulungsdatenquelle:
{ "splitting":{ "percentBegin":0, "percentEnd":25, "complement":"true" } }
Gültige Werte sind
true
undfalse
. - Strategy (Optional)
-
Wenn Sie die Vorgehensweise bei Amazon ML die Daten für eine Datenquelle ändern möchten, verwenden Sie die
strategy
-Parameter.Der Standardwert für die
strategy
-Parameter istsequential
, was bedeutet, dass Amazon ML alle Datensätze zwischen dempercentBegin
undpercentEnd
Parameter für die Datenquelle in der Reihenfolge, in der sie in den Eingabedaten erscheinen.Die folgenden beiden
DataRearrangement
-Zeilen sind Beispiele für sequentiell geordnete Schulungs- und Auswertungsdatenquellen:Auswertungsdatenquelle:
{"splitting":{"percentBegin":70, "percentEnd":100, "strategy":"sequential"}}
Schulungsdatenquelle:
{"splitting":{"percentBegin":70, "percentEnd":100, "strategy":"sequential", "complement":"true"}}
Wenn Sie eine Datenquelle aus einer Zufallsauswahl von Daten erstellen möchten, setzen Sie den Parameter
strategy
aufrandom
und geben Sie eine Zeichenfolge an, die als Ausgangswert für die zufällige Datenaufteilung verwendet wird (z. B. den S3-Pfad zu Ihren Daten als zufällige Seed-Zeichenfolge). Wenn Sie die zufällige Verteilungsstrategie wählen, weist Amazon ML jeder Datenzeile eine Pseudo-Zufallszahl zu und wählt dann die Zeilen mit einer zugeordneten Zahl zwischenpercentBegin
undpercentEnd
aus. Pseudo-Zufallszahlen werden mit dem Byte-Offset als Seed zugewiesen, sodass die Datenergebnisse anders aufgeteilt werden. Alle vorhandenen Reihenfolgen bleiben erhalten. Die zufällige Aufteilungsstrategie stellt sicher, dass die Variablen der Schulungs- und Auswertungsdaten gleichmäßig verteilt werden. Dies ist nützlich, wenn die Eingabedaten möglicherweise eine implizite Sortierreihenfolge besitzen, was ansonsten dazu führen würde, dass Schulungs- und Auswertungsdatenquellen nicht-ähnliche Datensätze enthalten würden.Die folgenden beiden
DataRearrangement
-Zeilen sind Beispiele für nicht-sequentiell geordnete Schulungs- und Auswertungsdatenquellen:Auswertungsdatenquelle:
{ "splitting":{ "percentBegin":70, "percentEnd":100, "strategy":"random", "strategyParams": { "randomSeed":"RANDOMSEED" } } }
Schulungsdatenquelle:
{ "splitting":{ "percentBegin":70, "percentEnd":100, "strategy":"random", "strategyParams": { "randomSeed":"RANDOMSEED" } "complement":"true" } }
Gültige Werte sind
sequential
undrandom
. - (Optional) Strategy:RandomSeed
-
Amazon ML verwendet dieRandomSeedum die Daten zu trennen. Der Standard-Seed für die API ist eine leere Zeichenfolge. Um einen Seed für die zufällige Aufteilungsstrategie anzugeben, übergeben Sie eine Zeichenfolge. Weitere Information zufällige Seeds finden Sie unterZufällige Aufteilung Ihrer DatenimAmazon Machine Learning Learning-Entwicklerleitaus.
Einen Beispielcode für die Verwendung der Cross-Validierung mit Amazon ML finden Sie unterGithub Machine Learning Learning-Beispiele