Ingestión de etiquetas de Ground Truth y combinación con predicciones
La supervisión de la calidad del modelo compara las predicciones que hace su modelo con las etiquetas de Ground Truth para medir la calidad del modelo. Para que esto funcione, debe etiquetar periódicamente los datos capturados por su punto de conexión o trabajo de transformación por lotes y cargarlos en Amazon S3.
Para cotejar las etiquetas de Ground Truth con los datos de predicción capturados, debe haber un identificador único para cada registro del conjunto de datos. La estructura de cada registro para los datos de verdad fundamental es la siguiente:
{ "groundTruthData": { "data": "1", "encoding": "CSV" }, "eventMetadata": { "eventId": "aaaa-bbbb-cccc" }, "eventVersion": "0" }
En la estructura groundTruthData
, eventId
puede ser una de las siguientes:
-
eventId
: este ID se genera automáticamente cuando un usuario invoca el punto de conexión. -
inferenceId
: el intermediario proporciona este ID cuando invoca el punto de conexión.
Si inferenceId
está presente en los registros de datos capturados, el monitor de modelos lo usa para combinar los datos capturados con los registros de Ground Truth. Usted es responsable de asegurarse de que el inferenceId
en los registros de Ground Truth coincidan con los inferenceId
de los registros capturados. Si inferenceId
no está presente en los registros de datos capturados, el monitor de modelos usa el eventId
de los datos capturados para combinarlos con los registros de Ground Truth.
Debe cargar los datos de Ground Truth a un bucket de Amazon S3 que tenga el mismo formato de ruta que los datos capturados.
Requisitos del formato de los datos
Al guardar los datos en Amazon S3, estos deben usar el formato jsonlines (.jsonl) y guardarse con la siguiente estructura de nomenclatura. Para obtener más información sobre los requisitos de jsonline, consulte Uso de datos de entrada y salida.
s3://
amzn-s3-demo-bucket1
/prefix
/yyyy
/mm
/dd
/hh
La fecha de esta ruta es la fecha en que se recopiló la etiqueta de Ground Truth y no tiene por qué coincidir con la fecha en que se generó la inferencia.
Después de crear y cargar las etiquetas de Ground Truth, incluya la ubicación de las etiquetas como parámetro al crear el trabajo de supervisión. Si utiliza el AWS SDK for Python (Boto3), especifique la ubicación de las etiquetas de Ground Truth como el campo S3Uri
del parámetro GroundTruthS3Input
en una llamada al método create_model_quality_job_definition
. Si utiliza el SageMaker Python SDK, especifique la ubicación de las etiquetas de Ground Truth como el parámetro ground_truth_input
en la llamada a create_monitoring_schedule
del objeto ModelQualityMonitor
.