Cómo establecer la captura de datos Cómo ver los datos capturados InferenceId Generación

Captura de datos del trabajo de transformación por lotes

Los pasos necesarios para activar la captura de datos para su trabajo de transformación por lotes son similares independientemente de si utiliza el SDK de Python AWS SDK for Python (Boto) o el de SageMaker Python. Si utilizas el AWS SDK, define el DataCaptureConfigdiccionario, junto con los campos obligatorios, en el CreateTransformJob método para activar la captura de datos. Si utilizas el SDK de Python para SageMaker IA, importa la BatchDataCaptureConfig clase e inicializa una instancia desde esta clase. A continuación, pase este objeto al parámetro batch_data_capture_config de la instancia de trabajo de transformación.

Para usar los siguientes fragmentos de código, reemplaza el código del italicized placeholder text ejemplo por tu propia información.

Cómo establecer la captura de datos

Especifique una configuración de captura de datos al lanzar un trabajo de transformación. Ya sea que utilice el SDK de SageMaker Python AWS SDK for Python (Boto3) o el de Python, debe proporcionar el DestinationS3Uri argumento, que es el directorio en el que desea que el trabajo de transformación registre los datos capturados. Si lo desea, también puede especificar los siguientes parámetros:

KmsKeyId: la AWS KMS clave utilizada para cifrar los datos capturados.
GenerateInferenceId: un indicador booleano que, al capturar los datos, indica si desea que el trabajo de transformación anexe el identificador de inferencia y la hora a la salida. Esto es útil para la supervisión de la calidad del modelo, donde es necesario ingerir los datos de Ground Truth. El ID de inferencia y la hora ayudan a cotejar los datos capturados con sus datos de Ground Truth.

AWS SDK for Python (Boto3)

Configure los datos que desee capturar con el DataCaptureConfigdiccionario al crear un trabajo de transformación mediante el CreateTransformJob método.


input_data_s3_uri = "s3://input_S3_uri"
output_data_s3_uri = "s3://output_S3_uri"
data_capture_destination = "s3://captured_data_S3_uri"

model_name = "model_name"

sm_client.create_transform_job(
    TransformJobName="transform_job_name",
    MaxConcurrentTransforms=2,
    ModelName=model_name,
    TransformInput={
        "DataSource": {
            "S3DataSource": {
                "S3DataType": "S3Prefix",
                "S3Uri": input_data_s3_uri,
            }
        },
        "ContentType": "text/csv",
        "CompressionType": "None",
        "SplitType": "Line",
    },
    TransformOutput={
        "S3OutputPath": output_data_s3_uri,
        "Accept": "text/csv",
        "AssembleWith": "Line",
    },
    TransformResources={
        "InstanceType": "ml.m4.xlarge",
        "InstanceCount": 1,
    },
    DataCaptureConfig={
       "DestinationS3Uri": data_capture_destination,
       "KmsKeyId": "kms_key",
       "GenerateInferenceId": True,
    }
    )

SageMaker Python SDK

Importe la clase BatchDataCaptureConfig del sagemaker.model_monitor.


from sagemaker.transformer import Transformer
from sagemaker.inputs import BatchDataCaptureConfig

# Optional - The S3 URI of where to store captured data in S3
data_capture_destination = "s3://captured_data_S3_uri"

model_name = "model_name"

transformer = Transformer(model_name=model_name, ...)
transform_arg = transformer.transform(
    batch_data_capture_config=BatchDataCaptureConfig(
        destination_s3_uri=data_capture_destination,
        kms_key_id="kms_key",
        generate_inference_id=True,
    ),
    ...
)

Cómo ver los datos capturados

Una vez que se completa el trabajo de transformación, los datos capturados se registran bajo el DestinationS3Uri que proporcionó en la configuración de captura de datos. Hay dos subdirectorios en DestinationS3Uri, /input y /output. Si DestinationS3Uri es s3://my-data-capture, el trabajo de transformación crea los siguientes directorios:

s3://my-data-capture/input: los datos de entrada capturados para el trabajo de transformación.
s3://my-data-capture/output: los datos de salida capturados para el trabajo de transformación.

Para evitar la duplicación de datos, los datos capturados en los dos directorios anteriores son manifiestos. Cada manifiesto es un archivo JSONL que contiene las ubicaciones de Amazon S3 de los objetos de origen. Un archivo de manifiesto puede verse como el siguiente ejemplo:


# under "/input" directory
[
    {"prefix":"s3://input_S3_uri/"},
    "dummy_0.csv",
    "dummy_1.csv",
    "dummy_2.csv",
    ...
]

# under "/output" directory
[
    {"prefix":"s3://output_S3_uri/"},
    "dummy_0.csv.out",
    "dummy_1.csv.out",
    "dummy_2.csv.out",
    ...
]

La tarea de transformación organiza y etiqueta estos manifiestos con un prefijo yyyy/mm/dd/hh S3 para indicar cuándo se capturaron. Esto ayuda al monitor de modelos a determinar la parte de datos adecuada que debe analizarse. Por ejemplo, si comienza el trabajo de transformación el 26 de agosto de 2022 a las 13:00 UTC, los datos capturados se etiquetan con una cadena de prefijo 2022/08/26/13/.

InferenceId Generación

Al configurar DataCaptureConfig para un trabajo de transformación, puede activar el indicador booleano GenerateInferenceId. Esto es particularmente útil cuando necesita ejecutar trabajos de supervisión de la calidad y el sesgo del modelo, para lo cual necesita datos de Ground Truth ingeridos por los usuarios. El monitor de modelos se basa en un ID de inferencia para cotejar los datos capturados y los datos de Ground Truth. Para obtener más información sobre la ingestión de Ground Truth, consulte Ingestión de etiquetas de Ground Truth y combinación con predicciones. Cuando GenerateInferenceId está activado, el resultado de la transformación anexa un ID de inferencia (un UUID asignado al azar), así como la hora de inicio del trabajo de transformación en UTC para cada registro. Necesita estos dos valores para ejecutar la supervisión de la calidad y el sesgo del modelo. Cuando construye los datos de Ground Truth, debe proporcionar el mismo ID de inferencia para cotejar los datos de salida. Actualmente, esta característica admite la transformación de las salidas en los formatos CSV, JSON y JSONL.

Si el resultado de la transformación está en formato CSV, el archivo de salida tiene el siguiente aspecto:


0, 1f1d57b1-2e6f-488c-8c30-db4e6d757861,2022-08-30T00:49:15Z
1, 22445434-0c67-45e9-bb4d-bd1bf26561e6,2022-08-30T00:49:15Z
...

Las dos últimas columnas son el identificador de inferencia y la hora de inicio del trabajo de transformación. No los modifique. Las columnas restantes son los resultados del trabajo de transformación.

Si el resultado de la transformación está en formato JSON o JSONL, el archivo de salida tiene el siguiente aspecto:


{"output": 0, "SageMakerInferenceId": "1f1d57b1-2e6f-488c-8c30-db4e6d757861", "SageMakerInferenceTime": "2022-08-30T00:49:15Z"}
{"output": 1, "SageMakerInferenceId": "22445434-0c67-45e9-bb4d-bd1bf26561e6", "SageMakerInferenceTime": "2022-08-30T00:49:15Z"}
...

Hay dos campos anexados que están reservados, SageMakerInferenceId y SageMakerInferenceTime. No modifique estos campos si necesita supervisar la calidad del modelo o el sesgo del modelo; los necesita para los trabajos de fusión.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Captura de datos del punto de conexión en tiempo real

Calidad de datos