Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Anforderungs- und Antwortformate für die Objekterkennung
Auf der folgenden Seite werden die Inferenzanforderungs- und Antwortformate für das Amazon SageMaker Object Detection — MXNet Modell beschrieben.
Anforderungsformat
Führen Sie die Abfrage eines trainierten Modells über dessen Endpunkt aus. Der Endpunkt benötigt JPG- oder PNG-Bildformate mit den Inhaltstypen image/jpeg
und image/png
.
Antwortformate
Die Antwort ist der Klassenindex mit einem Konfidenzwert und Bounding-Box-Koordinaten für alle Objekte innerhalb des im Format codierten Bildes. JSON Nachfolgend finden Sie ein Beispiel für eine .json-Antwortdatei:
{"prediction":[ [4.0, 0.86419455409049988, 0.3088374733924866, 0.07030484080314636, 0.7110607028007507, 0.9345266819000244], [0.0, 0.73376623392105103, 0.5714187026023865, 0.40427327156066895, 0.827075183391571, 0.9712159633636475], [4.0, 0.32643985450267792, 0.3677481412887573, 0.034883320331573486, 0.6318609714508057, 0.5967587828636169], [8.0, 0.22552496790885925, 0.6152569651603699, 0.5722782611846924, 0.882301390171051, 0.8985623121261597], [3.0, 0.42260299175977707, 0.019305512309074402, 0.08386176824569702, 0.39093565940856934, 0.9574796557426453] ]}
Jede Zeile in dieser .json-Datei enthält ein Array, das ein erkanntes Objekt darstellt. Jedes dieser Objekt-Arrays besteht aus einer Liste mit sechs Zahlen. Die erste Zahl ist die vorhergesagte Klassenbezeichnung. Die zweite Zahl ist der zugehörige Zuverlässigkeitswert für die Erkennung. Die letzten vier Zahlen geben die Koordinaten des Begrenzungsrahmens [xmin, ymin, ymax, xmax,] an. Diese Ausgabeindizes für die Begrenzungsrahmenecke werden durch die gesamte Bildgröße normalisiert. Beachten Sie, dass diese Codierung von der vom .json-Eingabeformat verwendeten Codierung abweicht. Beispiel: Im ersten Eintrag des Erkennungsergebnisses ist 0,3088374733924866 die linke Koordinate (x-Koordinate der oberen linken Ecke) des Begrenzungsrahmens als Verhältnis der gesamten Bildbreite. 0,07030484080314636 ist die obere Koordinate (y-Koordinate der oberen linken Ecke) des Begrenzungsrahmens als Verhältnis der gesamten Bildhöhe. 0,7110607028007507 ist die rechte Koordinate (x-Koordinate der unteren rechten Ecke) des Begrenzungsrahmens als Verhältnis der gesamten Breite des Bildes und 0,9345266819000244 ist die untere Koordinate (y-Koordinate der unteren rechten Ecke) des Begrenzungsrahmens als Verhältnis der gesamten Bildhöhe.
Um unzuverlässige Erkennungsergebnisse zu vermeiden, können Sie die Erkennungsergebnisse mit niedrigen Zuverlässigkeitswerten herausfiltern. Im Beispiel-Notebook zur Objekterkennung
Bei der Batch-Transformation liegt die Antwort im JSON Format vor, wobei das Format mit dem oben beschriebenen JSON Format identisch ist. Die Erkennungsergebnisse der einzelnen Bilder werden als JSON Datei dargestellt. Beispielsweise:
{"prediction": [[label_id, confidence_score, xmin, ymin, xmax, ymax], [label_id, confidence_score, xmin, ymin, xmax, ymax]]}
Weitere Informationen zu Trainings und Inferenz finden Sie unter Beispiel-Notebooks für die Objekterkennung.
OUTPUT: JSON Antwortformat
Akzeptiert: application/json;annotation=1
{ "image_size": [ { "width": 500, "height": 400, "depth": 3 } ], "annotations": [ { "class_id": 0, "score": 0.943, "left": 111, "top": 134, "width": 61, "height": 128 }, { "class_id": 0, "score": 0.0013, "left": 161, "top": 250, "width": 79, "height": 143 }, { "class_id": 1, "score": 0.0133, "left": 101, "top": 185, "width": 42, "height": 130 } ] }