Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Formats de demande et de réponse de détection d'objets
La page suivante décrit les formats de demande et de réponse d'inférence pour le MXNet modèle Amazon SageMaker AI Object Detection.
Format des demandes
Interrogez un modèle entraîné à l'aide du point de terminaison du modèle. Le point de terminaison accepte les formats d'image .png et .jpg avec les types de contenu image/png
et image/jpeg
.
Formats de réponse
La réponse est l'index de classe avec un score de fiabilité et les coordonnées du cadre de délimitation pour tous les objets de l'image encodée au format JSON. Voici un exemple de fichier de réponse .json :
{"prediction":[ [4.0, 0.86419455409049988, 0.3088374733924866, 0.07030484080314636, 0.7110607028007507, 0.9345266819000244], [0.0, 0.73376623392105103, 0.5714187026023865, 0.40427327156066895, 0.827075183391571, 0.9712159633636475], [4.0, 0.32643985450267792, 0.3677481412887573, 0.034883320331573486, 0.6318609714508057, 0.5967587828636169], [8.0, 0.22552496790885925, 0.6152569651603699, 0.5722782611846924, 0.882301390171051, 0.8985623121261597], [3.0, 0.42260299175977707, 0.019305512309074402, 0.08386176824569702, 0.39093565940856934, 0.9574796557426453] ]}
Chaque ligne de ce fichier .json contient un tableau qui représente un objet détecté. Chacun de ces tableaux d'objets se compose d'une liste de six nombres. Le premier nombre correspond à l'étiquette de classe prédite. Le deuxième nombre est le score de fiabilité associée pour la détection. Les quatre derniers nombres représentent les coordonnées du cadre de délimitation [xmin, ymin, xmax, ymax]. Ces index d'angle du cadre de délimitation de sortie sont normalisées par la taille globale de l'image. Notez que ce codage est différent de celui utilisé par le format .json d'entrée. Par exemple, dans la première entrée du résultat de la détection, 0,3088374733924866 est la coordonnée gauche (coordonnée x du coin supérieur gauche) du cadre de délimitation sous la forme d'un rapport de la largeur d'image globale, 0,07030484080314636 est la coordonnée supérieure (coordonnée y du coin supérieur gauche) du cadre de délimitation sous la forme d'un rapport de la hauteur d'image globale, 0,7110607028007507 est la coordonnée droite (coordonnée x du coin inférieur droit) du cadre de délimitation sous la forme d'un rapport de la largeur d'image globale et 0,9345266819000244 est la coordonnée inférieure (coordonnée y du coin inférieur droit) du cadre de délimitation sous la forme d'un rapport de la hauteur d'image globale.
Pour éviter des résultats de détection peu fiables, il se peut que vous souhaitiez filtrer ces résultats avec des scores de fiabilité faibles. Dans le bloc-notes d'exemples de détection d'objets
Pour la transformation des lots, la réponse est au format JSON, où le format est identique au format JSON décrit ci-dessus. Les résultats de détection de chaque image sont représentés sous la forme d'un fichier JSON. Par exemple :
{"prediction": [[label_id, confidence_score, xmin, ymin, xmax, ymax], [label_id, confidence_score, xmin, ymin, xmax, ymax]]}
Pour plus d'informations sur l'entraînement et l'inférence, consultez Exemples de blocs-notes de détection d'objet.
SORTIE : format de réponse JSON
accept: application/json;annotation=1
{ "image_size": [ { "width": 500, "height": 400, "depth": 3 } ], "annotations": [ { "class_id": 0, "score": 0.943, "left": 111, "top": 134, "width": 61, "height": 128 }, { "class_id": 0, "score": 0.0013, "left": 161, "top": 250, "width": 79, "height": 143 }, { "class_id": 1, "score": 0.0133, "left": 101, "top": 185, "width": 42, "height": 130 } ] }