Envíe datos a un trabajo de etiquetado en streaming - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Envíe datos a un trabajo de etiquetado en streaming

Si lo desea, puede enviar los datos de entrada a un trabajo de etiquetado en streaming una sola vez al crear el trabajo de etiquetado mediante un archivo de manifiesto de entrada. Una vez que el trabajo de etiquetado haya comenzado y se encuentre en ese estadoInProgress, puede enviar nuevos objetos de datos a su trabajo de etiquetado en tiempo real mediante el tema de SNS entrada de Amazon y las notificaciones de eventos de Amazon S3.

Envíe los objetos de datos al iniciar el trabajo de etiquetado (una vez):

  • Utilice un archivo de manifiesto de entrada: si lo desea, puede especificar un archivo de manifiesto de entrada URI en Amazon S3 ManifestS3Uri al crear el trabajo de etiquetado de streaming. Ground Truth envía cada objeto de datos del archivo de manifiesto a los trabajadores para que lo etiqueten en cuanto comience el trabajo de etiquetado. Para obtener más información, consulte Crear un archivo de manifiesto (opcional).

    Después de enviar una solicitud para crear el trabajo de etiquetado en streaming, su estado será Initializing. Una vez que el trabajo de etiquetado esté activo, el estado cambiará a InProgress y podrá empezar a utilizar las opciones en tiempo real para enviar objetos de datos adicionales para realizar el etiquetado.

Envíe objetos de datos en tiempo real:

  • Envía objetos de datos mediante SNS mensajes de Amazon: puedes enviar a Ground Truth nuevos objetos de datos para etiquetarlos enviando un SNS mensaje de Amazon. Enviarás este mensaje a un tema de SNS entrada de Amazon que crees y especifiques al crear tu trabajo de etiquetado de streaming. Para obtener más información, consulte Envía objetos de datos con Amazon SNS.

  • Envíe objetos de datos colocándolos en un bucket de Amazon S3: cada vez que añada un nuevo objeto de datos a un bucket de Amazon S3, podrá solicitar a Ground Truth que procese ese objeto para su etiquetado. Para ello, añades una notificación de evento al bucket para que notifique tu tema de SNS entrada de Amazon cada vez que se añada (o se cree) un nuevo objeto a ese bucket. Para obtener más información, consulte Envío de objetos de datos mediante Amazon S3. Esta opción no está disponible para los trabajos de etiquetado basados en texto, como la clasificación de textos y el reconocimiento de entidades con nombre.

    importante

    Si utiliza la configuración de Amazon S3, no utilice la misma ubicación de Amazon S3 para la configuración de los datos de entrada y los datos de salida. Al crear un trabajo de etiquetado, debe especificar el prefijo S3 para los datos de salida.

Envía objetos de datos con Amazon SNS

Puede enviar objetos de datos a su trabajo de etiquetado de streaming mediante Amazon Simple Notification Service (AmazonSNS). Amazon SNS es un servicio web que coordina y gestiona la entrega de mensajes desde y hacia los puntos finales (por ejemplo, una dirección de correo electrónico o una AWS Lambda función). Un SNS tema de Amazon actúa como un canal de comunicación entre dos o más puntos finales. Utiliza Amazon SNS para enviar o publicar nuevos objetos de datos en el tema especificado en el CreateLabelingJobparámetro SnsTopicArn enInputConfig. El formato de estos mensajes es el mismo que el de una sola línea de un archivo de manifiesto de entrada.

Por ejemplo, puede enviar un fragmento de texto a un trabajo de etiquetado y clasificación de texto activo publicándolo en el tema de entrada. El mensaje que publique puede tener un aspecto similar al siguiente:

{"source": "Lorem ipsum dolor sit amet"}

Para enviar un objeto de imagen nuevo a un trabajo de etiquetado y clasificación de imágenes, el mensaje podría tener un aspecto similar al siguiente:

{"source-ref": "s3://amzn-s3-demo-bucket/example-image.jpg"}
nota

También puedes incluir claves de deduplicación IDs y deduplicación personalizadas en tus mensajes de AmazonSNS. Para obtener más información, consulte Gestión de mensajes duplicados.

Cuando Ground Truth crea tu trabajo de etiquetado en streaming, se suscribe a tu tema de SNS entrada de Amazon.

Envío de objetos de datos mediante Amazon S3

Puede enviar uno o más objetos de datos nuevos a un trabajo de etiquetado de streaming colocándolos en un bucket de Amazon S3 que esté configurado con una notificación de SNS eventos de Amazon. Puedes configurar un evento para que notifique tu tema de SNS entrada de Amazon cada vez que se cree un objeto nuevo en tu bucket. Debes especificar este mismo tema SNS de entrada de Amazon en el CreateLabelingJobparámetro SnsTopicArn inInputConfig.

Cada vez que configure un bucket de Amazon S3 para enviar notificaciones a AmazonSNS, Ground Truth publicará un evento de prueba para garantizar que el tema existe y que el propietario del bucket de Amazon S3 especificado tiene permiso para publicar en el tema especificado. "s3:TestEvent" Se recomienda configurar la conexión de Amazon S3 con Amazon SNS antes de iniciar un trabajo de etiquetado en streaming. Si no lo hace, este evento de prueba puede registrarse como un objeto de datos y enviarse a Ground Truth para etiquetarlo.

importante

Si utiliza la configuración de Amazon S3, no utilice la misma ubicación de Amazon S3 para la configuración de los datos de entrada y los datos de salida. Al crear un trabajo de etiquetado, debe especificar el prefijo S3 para los datos de salida.

Para los trabajos de etiquetado basados en imágenes, Ground Truth requiere que todos los depósitos de S3 tengan una CORS política adjunta. Para obtener más información, consulte CORSRequisito de entrada de datos de imagen.

Una vez que hayas configurado tu bucket de Amazon S3 y creado tu trabajo de etiquetado, podrás añadir objetos a tu bucket y Ground Truth enviará ese objeto a los trabajadores o lo colocará en tu SQS cola de Amazon.

Para obtener más información, consulte Configurar notificaciones de eventos de bucket de Amazon S3.

importante

Esta opción no está disponible para los trabajos de etiquetado basados en texto, como la clasificación de textos y el reconocimiento de entidades con nombre.