Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Captura de datos del trabajo de transformación por lotes
Los pasos necesarios para activar la captura de datos para su trabajo de transformación por lotes son similares independientemente de si utiliza el SDK de Python AWS SDK for Python (Boto) o el de SageMaker Python. Si utilizas el AWS SDK, define el DataCaptureConfigdiccionario, junto con los campos obligatorios, en el CreateTransformJob
método para activar la captura de datos. Si utilizas el SDK de Python para SageMaker IA, importa la BatchDataCaptureConfig
clase e inicializa una instancia desde esta clase. A continuación, pase este objeto al parámetro batch_data_capture_config
de la instancia de trabajo de transformación.
Para usar los siguientes fragmentos de código, reemplaza el código del italicized placeholder
text
ejemplo por tu propia información.
Cómo establecer la captura de datos
Especifique una configuración de captura de datos al lanzar un trabajo de transformación. Ya sea que utilice el SDK de SageMaker Python AWS SDK for Python (Boto3) o el de Python, debe proporcionar el DestinationS3Uri
argumento, que es el directorio en el que desea que el trabajo de transformación registre los datos capturados. Si lo desea, también puede especificar los siguientes parámetros:
-
KmsKeyId
: la AWS KMS clave utilizada para cifrar los datos capturados. -
GenerateInferenceId
: un indicador booleano que, al capturar los datos, indica si desea que el trabajo de transformación anexe el identificador de inferencia y la hora a la salida. Esto es útil para la supervisión de la calidad del modelo, donde es necesario ingerir los datos de Ground Truth. El ID de inferencia y la hora ayudan a cotejar los datos capturados con sus datos de Ground Truth.
Cómo ver los datos capturados
Una vez que se completa el trabajo de transformación, los datos capturados se registran bajo el DestinationS3Uri
que proporcionó en la configuración de captura de datos. Hay dos subdirectorios en DestinationS3Uri
, /input
y /output
. Si DestinationS3Uri
es s3://my-data-capture
, el trabajo de transformación crea los siguientes directorios:
-
s3://my-data-capture/input
: los datos de entrada capturados para el trabajo de transformación. -
s3://my-data-capture/output
: los datos de salida capturados para el trabajo de transformación.
Para evitar la duplicación de datos, los datos capturados en los dos directorios anteriores son manifiestos. Cada manifiesto es un archivo JSONL que contiene las ubicaciones de Amazon S3 de los objetos de origen. Un archivo de manifiesto puede verse como el siguiente ejemplo:
# under "/input" directory [ {"prefix":"s3://
input_S3_uri
/"}, "dummy_0.csv", "dummy_1.csv", "dummy_2.csv", ... ] # under "/output" directory [ {"prefix":"s3://output_S3_uri
/"}, "dummy_0.csv.out", "dummy_1.csv.out", "dummy_2.csv.out", ... ]
La tarea de transformación organiza y etiqueta estos manifiestos con un prefijo yyyy/mm/dd/hh
S3 para indicar cuándo se capturaron. Esto ayuda al monitor de modelos a determinar la parte de datos adecuada que debe analizarse. Por ejemplo, si comienza el trabajo de transformación el 26 de agosto de 2022 a las 13:00 UTC, los datos capturados se etiquetan con una cadena de prefijo 2022/08/26/13/
.
InferenceId Generación
Al configurar DataCaptureConfig
para un trabajo de transformación, puede activar el indicador booleano GenerateInferenceId
. Esto es particularmente útil cuando necesita ejecutar trabajos de supervisión de la calidad y el sesgo del modelo, para lo cual necesita datos de Ground Truth ingeridos por los usuarios. El monitor de modelos se basa en un ID de inferencia para cotejar los datos capturados y los datos de Ground Truth. Para obtener más información sobre la ingestión de Ground Truth, consulte Ingestión de etiquetas de Ground Truth y combinación con predicciones. Cuando GenerateInferenceId
está activado, el resultado de la transformación anexa un ID de inferencia (un UUID asignado al azar), así como la hora de inicio del trabajo de transformación en UTC para cada registro. Necesita estos dos valores para ejecutar la supervisión de la calidad y el sesgo del modelo. Cuando construye los datos de Ground Truth, debe proporcionar el mismo ID de inferencia para cotejar los datos de salida. Actualmente, esta característica admite la transformación de las salidas en los formatos CSV, JSON y JSONL.
Si el resultado de la transformación está en formato CSV, el archivo de salida tiene el siguiente aspecto:
0, 1f1d57b1-2e6f-488c-8c30-db4e6d757861,2022-08-30T00:49:15Z 1, 22445434-0c67-45e9-bb4d-bd1bf26561e6,2022-08-30T00:49:15Z ...
Las dos últimas columnas son el identificador de inferencia y la hora de inicio del trabajo de transformación. No los modifique. Las columnas restantes son los resultados del trabajo de transformación.
Si el resultado de la transformación está en formato JSON o JSONL, el archivo de salida tiene el siguiente aspecto:
{"output": 0, "SageMakerInferenceId": "1f1d57b1-2e6f-488c-8c30-db4e6d757861", "SageMakerInferenceTime": "2022-08-30T00:49:15Z"} {"output": 1, "SageMakerInferenceId": "22445434-0c67-45e9-bb4d-bd1bf26561e6", "SageMakerInferenceTime": "2022-08-30T00:49:15Z"} ...
Hay dos campos anexados que están reservados, SageMakerInferenceId
y SageMakerInferenceTime
. No modifique estos campos si necesita supervisar la calidad del modelo o el sesgo del modelo; los necesita para los trabajos de fusión.