Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Formato della richiesta e della risposta per il rilevamento oggetti
La pagina seguente descrive i formati di richiesta e risposta di inferenza per il MXNet modello Amazon SageMaker Object Detection.
Formato della richiesta
Esegui la query a un modello addestrato utilizzando l'endpoint del modello. L'endpoint accetta i formati di immagine .jpg e .png con i tipi di contenuto image/jpeg
e image/png
.
Formati della risposta
La risposta è l'indice di classe con un punteggio di confidenza e le coordinate del bounding box per tutti gli oggetti all'interno dell'immagine codificata in formato. JSON Di seguito è riportato un esempio di file .json di risposta:
{"prediction":[ [4.0, 0.86419455409049988, 0.3088374733924866, 0.07030484080314636, 0.7110607028007507, 0.9345266819000244], [0.0, 0.73376623392105103, 0.5714187026023865, 0.40427327156066895, 0.827075183391571, 0.9712159633636475], [4.0, 0.32643985450267792, 0.3677481412887573, 0.034883320331573486, 0.6318609714508057, 0.5967587828636169], [8.0, 0.22552496790885925, 0.6152569651603699, 0.5722782611846924, 0.882301390171051, 0.8985623121261597], [3.0, 0.42260299175977707, 0.019305512309074402, 0.08386176824569702, 0.39093565940856934, 0.9574796557426453] ]}
Ogni riga in questo file .json contiene un array che rappresenta un oggetto rilevato. Ciascuno di questi array di oggetti è costituito da un elenco di sei numeri. Il primo numero è l'etichetta di classe prevista. Il secondo numero è il punteggio di attendibilità associato per il rilevamento. Gli ultimi quattro numeri rappresentano le coordinate del riquadro di delimitazione [xmin, ymin, xmax, ymax]. Questi indici degli angoli del riquadro di delimitazione di output sono normalizzati dalla dimensione generale dell'immagine. Tieni presente che questa codifica è diversa da quella utilizzata dal formato .json di input. Ad esempio, nella prima voce del risultato di rilevamento, 0.3088374733924866 è la coordinata sinistra (coordinata x dell'angolo superiore sinistro) del riquadro di delimitazione come rapporto della larghezza dell'immagine complessiva, 0.07030484080314636 è la coordinata superiore (coordinata y dell'angolo superiore sinistro) del riquadro di delimitazione come rapporto dell'altezza dell'immagine complessiva, 0.7110607028007507 è la coordinata destra (coordinata x dell'angolo in basso a destra) del riquadro di delimitazione come rapporto della larghezza dell'immagine complessiva e 0.9345266819000244 è il coordinata inferiore (coordinata y dell'angolo inferiore destro) del riquadro di delimitazione come rapporto dell'altezza dell'immagine complessiva.
Per evitare risultati di rilevamento inaffidabili, è possibile filtrare i risultati del rilevamento con bassi punteggi di attendibilità. Nel notebook di esempio per il rilevamento di oggetti
Per la trasformazione in batch, la risposta è in JSON formato, dove il formato è identico al JSON formato descritto sopra. I risultati del rilevamento di ogni immagine sono rappresentati come JSON file. Per esempio:
{"prediction": [[label_id, confidence_score, xmin, ymin, xmax, ymax], [label_id, confidence_score, xmin, ymin, xmax, ymax]]}
Per ulteriori dettagli sull’addestramento e sull'inferenza, consulta Notebook di esempio di rilevamento oggetti.
OUTPUT: Formato JSON di risposta
accept: application/json;annotation=1
{ "image_size": [ { "width": 500, "height": 400, "depth": 3 } ], "annotations": [ { "class_id": 0, "score": 0.943, "left": 111, "top": 134, "width": 61, "height": 128 }, { "class_id": 0, "score": 0.0013, "left": 161, "top": 250, "width": 79, "height": 143 }, { "class_id": 1, "score": 0.0133, "left": 101, "top": 185, "width": 42, "height": 130 } ] }