Ingestión de etiquetas de Ground Truth y combinación con predicciones - Amazon SageMaker

Ingestión de etiquetas de Ground Truth y combinación con predicciones

La supervisión de la calidad del modelo compara las predicciones que hace su modelo con las etiquetas de Ground Truth para medir la calidad del modelo. Para que esto funcione, debe etiquetar periódicamente los datos capturados por su punto de conexión o trabajo de transformación por lotes y cargarlos en Amazon S3.

Para cotejar las etiquetas de Ground Truth con los datos de predicción capturados, debe haber un identificador único para cada registro del conjunto de datos. La estructura de cada registro para los datos de verdad fundamental es la siguiente:

{ "groundTruthData": { "data": "1", "encoding": "CSV" }, "eventMetadata": { "eventId": "aaaa-bbbb-cccc" }, "eventVersion": "0" }

En la estructura groundTruthData, eventId puede ser una de las siguientes:

  • eventId: este ID se genera automáticamente cuando un usuario invoca el punto de conexión.

  • inferenceId: el intermediario proporciona este ID cuando invoca el punto de conexión.

Si inferenceId está presente en los registros de datos capturados, el monitor de modelos lo usa para combinar los datos capturados con los registros de Ground Truth. Usted es responsable de asegurarse de que el inferenceId en los registros de Ground Truth coincidan con los inferenceId de los registros capturados. Si inferenceId no está presente en los registros de datos capturados, el monitor de modelos usa el eventId de los datos capturados para combinarlos con los registros de Ground Truth.

Debe cargar los datos de Ground Truth a un bucket de Amazon S3 que tenga el mismo formato de ruta que los datos capturados.

Requisitos del formato de los datos

Al guardar los datos en Amazon S3, estos deben usar el formato jsonlines (.jsonl) y guardarse con la siguiente estructura de nomenclatura. Para obtener más información sobre los requisitos de jsonline, consulte Uso de datos de entrada y salida.

s3://amzn-s3-demo-bucket1/prefix/yyyy/mm/dd/hh

La fecha de esta ruta es la fecha en que se recopiló la etiqueta de Ground Truth y no tiene por qué coincidir con la fecha en que se generó la inferencia.

Después de crear y cargar las etiquetas de Ground Truth, incluya la ubicación de las etiquetas como parámetro al crear el trabajo de supervisión. Si utiliza el AWS SDK for Python (Boto3), especifique la ubicación de las etiquetas de Ground Truth como el campo S3Uri del parámetro GroundTruthS3Input en una llamada al método create_model_quality_job_definition. Si utiliza el SageMaker Python SDK, especifique la ubicación de las etiquetas de Ground Truth como el parámetro ground_truth_input en la llamada a create_monitoring_schedule del objeto ModelQualityMonitor.