Formatos de solicitud de detección de objeto y respuesta - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Formatos de solicitud de detección de objeto y respuesta

En la siguiente página, se describen los formatos de solicitud y respuesta de inferencia para el MXNet modelo Amazon SageMaker Object Detection.

Formato de las solicitudes

Consulte un modelo de capacitación mediante el punto de enlace del modelo. El punto de enlace acepta formatos de imagen.jpg y .png con image/jpeg y tipos de image/png contenido.

Formatos de respuesta

La respuesta es el índice de clases con una puntuación de confianza y coordenadas de cuadro delimitador para todos los objetos de la imagen codificados en JSON el formato. A continuación se muestra un ejemplo de respuesta de un archivo .json:

{"prediction":[ [4.0, 0.86419455409049988, 0.3088374733924866, 0.07030484080314636, 0.7110607028007507, 0.9345266819000244], [0.0, 0.73376623392105103, 0.5714187026023865, 0.40427327156066895, 0.827075183391571, 0.9712159633636475], [4.0, 0.32643985450267792, 0.3677481412887573, 0.034883320331573486, 0.6318609714508057, 0.5967587828636169], [8.0, 0.22552496790885925, 0.6152569651603699, 0.5722782611846924, 0.882301390171051, 0.8985623121261597], [3.0, 0.42260299175977707, 0.019305512309074402, 0.08386176824569702, 0.39093565940856934, 0.9574796557426453] ]}

Cada fila en este archivo .json contiene una matriz que representa un objeto detectado. Cada una de estas matrices objeto se compone de una lista de seis números. El primer número es la etiqueta de clase predicha. El segundo número es la puntuación de confianza asociada para la detección. Los últimos cuatro números representan las coordenadas del cuadro delimitador [xmin, ymin, xmax, ymax]. Estos índices de esquinas del cuadro delimitador de salida están normalizados por el tamaño global de la imagen. Tenga en cuenta que esta codificación es diferente a la que utiliza el formato .json de entrada. Por ejemplo, en el resultado de la detección de la primera entrada, 0,3088374733924866 es la coordenada izquierda (coordenada x de la esquina superior izquierda) del cuadro delimitador como relación del ancho de la imagen general, 0,07030484080314636 es la coordenada superior (coordenada y de la esquina superior izquierda) del cuadro delimitador como relación de la altura de la imagen general, 0,7110607028007507 es la coordenada derecha (coordenada x de esquina inferior derecha) del cuadro delimitador como relación del ancho de la imagen general y 0,9345266819000244 es la coordenada inferior (coordenada y de esquina inferior derecha) del cuadro delimitador como relación de la altura de la imagen general.

Para evitar los resultados de detección poco fiables, es posible que desee filtrar los resultados de la detección con bajas puntuaciones de confianza. En el cuaderno de muestra de detección de objetos, incluimos ejemplos de scripts que utilizan un umbral para eliminar las detecciones de baja fiabilidad y trazar recuadros delimitadores en las imágenes originales.

En el caso de la transformación por lotes, la respuesta está en JSON formato, donde el formato es idéntico al JSON descrito anteriormente. Los resultados de la detección de cada imagen se representan como un JSON archivo. Por ejemplo:

{"prediction": [[label_id, confidence_score, xmin, ymin, xmax, ymax], [label_id, confidence_score, xmin, ymin, xmax, ymax]]}

Para obtener más información capacitación e inferencia, consulte el Cuadernos de ejemplo de detección de objetos.

OUTPUT: Formato de JSON respuesta

accept: application/json;annotation=1

{ "image_size": [ { "width": 500, "height": 400, "depth": 3 } ], "annotations": [ { "class_id": 0, "score": 0.943, "left": 111, "top": 134, "width": 61, "height": 128 }, { "class_id": 0, "score": 0.0013, "left": 161, "top": 250, "width": 79, "height": 143 }, { "class_id": 1, "score": 0.0133, "left": 101, "top": 185, "width": 42, "height": 130 } ] }