Formatos de solicitação e resposta de Detecção de objetos - Amazon SageMaker

Formatos de solicitação e resposta de Detecção de objetos

A página a seguir descreve os formatos de solicitação e resposta de inferência da Detecção do Objeto do Amazon SageMaker - modelo MXNet.

Formato de solicitação

Para fazer a consulta de um modelo treinado, use o endpoint do modelo. O endpoint usa os formatos de imagem .jpg e .png com os tipos de conteúdo image/jpeg e image/png.

Formatos de resposta

A resposta é o índice de classe com uma pontuação de confiança e coordenadas da caixa delimitadora para todos os objetos na imagem codificada no formato JSON. Veja a seguir um exemplo de arquivo .json de resposta:

{"prediction":[ [4.0, 0.86419455409049988, 0.3088374733924866, 0.07030484080314636, 0.7110607028007507, 0.9345266819000244], [0.0, 0.73376623392105103, 0.5714187026023865, 0.40427327156066895, 0.827075183391571, 0.9712159633636475], [4.0, 0.32643985450267792, 0.3677481412887573, 0.034883320331573486, 0.6318609714508057, 0.5967587828636169], [8.0, 0.22552496790885925, 0.6152569651603699, 0.5722782611846924, 0.882301390171051, 0.8985623121261597], [3.0, 0.42260299175977707, 0.019305512309074402, 0.08386176824569702, 0.39093565940856934, 0.9574796557426453] ]}

Cada linha nesse arquivo .json contém uma matriz que representa um objeto detectado. Cada uma dessas matrizes de objetos consiste em uma lista de seis números. O primeiro número é o rótulo de classe previsto. O segundo número é a pontuação de confiança associada à detecção. Os últimos quatro números representam as coordenadas da caixa delimitadora [xmin, ymin, xmax, ymax]. Esses índices de canto de caixa delimitadora de saída são normalizados pelo tamanho geral da imagem. Observe que essa codificação é diferente daquela usada pelo formato .json de entrada. Por exemplo, na primeira entrada do resultado de detecção, 0.3088374733924866 é a coordenada esquerda (coordenada x do canto superior esquerdo) da caixa delimitadora como uma proporção da largura total da imagem, 0.07030484080314636 é a coordenada superior (coordenada y do canto superior esquerdo) da caixa delimitadora como uma proporção da altura total da imagem, 0.7110607028007507 é a coordenada direita (coordenada x do canto inferior direito) da caixa delimitadora como uma proporção da largura total da imagem e 0.9345266819000244 é a coordenada inferior (coordenada y do canto inferior direito) da caixa delimitadora como uma proporção da altura geral da imagem.

Para evitar resultados de detecção não confiáveis, você pode remover os resultados da detecção com baixa pontuação de confiança. No caderno de exemplo de detecção de objetos, fornecemos exemplos de scripts que usam um limite para remover detecções de baixa confiança e traçar caixas delimitadoras nas imagens originais.

Para a conversão em lote, a resposta está no formato JSON, em que o formato é idêntico ao formato JSON descrito acima. Os resultados de detecção de cada imagem são representados como um arquivo JSON. Por exemplo:

{"prediction": [[label_id, confidence_score, xmin, ymin, xmax, ymax], [label_id, confidence_score, xmin, ymin, xmax, ymax]]}

Para obter mais detalhes sobre treinamento e inferência, consulte os Cadernos de amostra para Detecção de objetos.

SAÍDA: Formato de resposta JSON

accept: application/json;annotation=1

{ "image_size": [ { "width": 500, "height": 400, "depth": 3 } ], "annotations": [ { "class_id": 0, "score": 0.943, "left": 111, "top": 134, "width": 61, "height": 128 }, { "class_id": 0, "score": 0.0013, "left": 161, "top": 250, "width": 79, "height": 143 }, { "class_id": 1, "score": 0.0133, "left": 101, "top": 185, "width": 42, "height": 130 } ] }