Formatos de solicitud de detección de objeto y respuesta - Amazon SageMaker

Formatos de solicitud de detección de objeto y respuesta

En la siguiente página se describen los formatos de solicitud y respuesta para la inferencia para el modelo de detección de objetos Amazon SageMaker - MXNet.

Formato de las solicitudes

Consulte un modelo de capacitación mediante el punto de enlace del modelo. El punto de enlace acepta formatos de imagen.jpg y .png con image/jpeg y tipos de image/png contenido.

Formatos de respuesta

La respuesta es el índice de clase con una puntuación de confianza y las coordenadas del cuadro delimitador para todos los objetos dentro de la imagen codificados en formato JSON. A continuación se muestra un ejemplo de respuesta de un archivo .json:

{"prediction":[ [4.0, 0.86419455409049988, 0.3088374733924866, 0.07030484080314636, 0.7110607028007507, 0.9345266819000244], [0.0, 0.73376623392105103, 0.5714187026023865, 0.40427327156066895, 0.827075183391571, 0.9712159633636475], [4.0, 0.32643985450267792, 0.3677481412887573, 0.034883320331573486, 0.6318609714508057, 0.5967587828636169], [8.0, 0.22552496790885925, 0.6152569651603699, 0.5722782611846924, 0.882301390171051, 0.8985623121261597], [3.0, 0.42260299175977707, 0.019305512309074402, 0.08386176824569702, 0.39093565940856934, 0.9574796557426453] ]}

Cada fila en este archivo .json contiene una matriz que representa un objeto detectado. Cada una de estas matrices objeto se compone de una lista de seis números. El primer número es la etiqueta de clase predicha. El segundo número es la puntuación de confianza asociada para la detección. Los últimos cuatro números representan las coordenadas del cuadro delimitador [xmin, ymin, xmax, ymax]. Estos índices de esquinas del cuadro delimitador de salida están normalizados por el tamaño global de la imagen. Tenga en cuenta que esta codificación es diferente a la que utiliza el formato .json de entrada. Por ejemplo, en el resultado de la detección de la primera entrada, 0,3088374733924866 es la coordenada izquierda (coordenada x de la esquina superior izquierda) del cuadro delimitador como relación del ancho de la imagen general, 0,07030484080314636 es la coordenada superior (coordenada y de la esquina superior izquierda) del cuadro delimitador como relación de la altura de la imagen general, 0,7110607028007507 es la coordenada derecha (coordenada x de esquina inferior derecha) del cuadro delimitador como relación del ancho de la imagen general y 0,9345266819000244 es la coordenada inferior (coordenada y de esquina inferior derecha) del cuadro delimitador como relación de la altura de la imagen general.

Para evitar los resultados de detección poco fiables, es posible que desee filtrar los resultados de la detección con bajas puntuaciones de confianza. En el cuaderno de muestra de detección de objetos, incluimos ejemplos de scripts que utilizan un umbral para eliminar las detecciones de baja fiabilidad y trazar recuadros delimitadores en las imágenes originales.

Para transformar por lotes, la respuesta se encuentra en formato JSON, donde el formato es idéntico al formato JSON descrito anteriormente. Los resultados de detección de cada imagen se representan como un archivo JSON. Por ejemplo:

{"prediction": [[label_id, confidence_score, xmin, ymin, xmax, ymax], [label_id, confidence_score, xmin, ymin, xmax, ymax]]}

Para obtener más información capacitación e inferencia, consulte el Cuadernos de ejemplo de detección de objetos.

SALIDA: Formato de respuesta JSON

accept: application/json;annotation=1

{ "image_size": [ { "width": 500, "height": 400, "depth": 3 } ], "annotations": [ { "class_id": 0, "score": 0.943, "left": 111, "top": 134, "width": 61, "height": 128 }, { "class_id": 0, "score": 0.0013, "left": 161, "top": 250, "width": 79, "height": 143 }, { "class_id": 1, "score": 0.0133, "left": 101, "top": 185, "width": 42, "height": 130 } ] }