Entrena el etiquetado de datos con humanos con Amazon SageMaker Ground Truth - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Entrena el etiquetado de datos con humanos con Amazon SageMaker Ground Truth

Para entrenar un modelo de machine learning, necesita un conjunto de datos grande, de alta calidad y etiquetado. Ground Truth ayuda a crear conjuntos de datos de entrenamiento de alta calidad para modelos de machine learning. Con Ground Truth puede utilizar trabajadores de Amazon Mechanical Turk, una empresa proveedora que usted elija o personal interno y privado junto con machine learning para poder crear un conjunto de datos etiquetados. Puede utilizar la salida del conjunto de datos etiquetados de Ground Truth para entrenar sus propios modelos. También puedes usar el resultado como un conjunto de datos de entrenamiento para un SageMaker modelo de Amazon.

Dependiendo de la aplicación ML, puede elegir entre uno de los tipos de tareas integrados de Ground Truth para que los trabajadores generen tipos específicos de etiquetas para los datos. También puede crear un flujo de trabajo de etiquetado personalizado para proporcionar su propia interfaz de usuario y herramientas a los trabajadores que etiquetan sus datos. Para obtener más información sobre los tipos de tareas integrados de Ground Truth, consulte Tipos de tareas integrados. Para obtener información sobre cómo crear un flujo de trabajo de etiquetado personalizado, consulte Flujos de trabajo de etiquetado personalizados.

Para automatizar el etiquetado de sus conjuntos de datos de entrenamiento, si lo desea puede utilizar el etiquetado de datos automatizado, un proceso de Ground Truth que utiliza machine learning para decidir qué datos deben etiquetar los humanos. El etiquetado de datos automatizado puede reducir el tiempo de etiquetado y el esfuerzo manual necesarios. Para obtener más información, consulte Automatice el etiquetado de datos. Para crear un flujo de trabajo de etiquetado personalizado, consulte Flujos de trabajo de etiquetado personalizados.

Utilice herramientas integradas previamente o personalizadas para asignar las tareas de etiquetado a su conjunto de datos de capacitación. Una plantilla de interfaz de usuario de etiquetado es una página web que utiliza Ground Truth para presentar tareas e instrucciones a sus trabajadores. La SageMaker consola proporciona plantillas integradas para etiquetar los datos. Puede utilizar estas plantillas para empezar, o puede crear sus propias tareas e instrucciones con nuestros componentes HTML 2.0. Para obtener más información, consulte Flujos de trabajo de etiquetado personalizados.

Utilice el personal de su elección para etiquetar el conjunto de datos. Puede elegir su personal entre las opciones siguientes:

  • El personal de Amazon Mechanical Turk de más de 500 000 contratistas independientes en todo el mundo.

  • Un personal privado que cree a partir de sus trabajadores o contratistas para gestionar datos dentro de su organización.

  • Una empresa proveedora que puede encontrar en The y AWS Marketplace que se especializa en servicios de etiquetado de datos.

Para obtener más información, consulte Personal.

Puede almacenar sus conjuntos de datos en buckets de Amazon S3. Los buckets contienen tres cosas: los datos que van a etiquetar, un archivo de manifiesto de entrada que utiliza Ground Truth para leer los archivos de datos y un archivo de manifiesto de salida. El archivo de salida contiene los resultados del trabajo de etiquetado. Para obtener más información, consulte Utilizar datos de entrada y salida.

Los eventos de tus trabajos de etiquetado aparecen en CloudWatch Amazon en el /aws/sagemaker/LabelingJobs grupo. CloudWatch utiliza el nombre del trabajo de etiquetado como nombre del flujo de registro.

¿Es la primera vez que utiliza Ground Truth?

Si es la primera vez que utiliza Ground Truth, le recomendamos que realice el siguiente procedimiento:

  1. Lea Primeros pasos: cree un trabajo de etiquetado de cajas delimitadoras con Ground Truth: en esta sección se explica cómo configurar su primer trabajo de etiquetado de Ground Truth.

  2. Explorar otros temas: según sus necesidades, realice las siguientes tareas:

    • Explore tipos de tareas integrados: utilice tipos de tareas integrados para agilizar el proceso de creación de un trabajo de etiquetado. Consulte Tipos de tareas integrados para obtener más información sobre los tipos de tareas integrados de Ground Truth.

    • Administre su personal de etiquetado: cree nuevos equipos de trabajo y administre el personal existente. Para obtener más información, consulte Personal.

    • Obtenga información sobre los trabajos de etiquetado en streaming: cree un trabajo de etiquetado en streaming y envíe nuevos objetos del conjunto de datos a los trabajadores en tiempo real mediante un trabajo de etiquetado en ejecución permanente. Los trabajadores reciben continuamente nuevos objetos de datos para etiquetarlos mientras el trabajo de etiquetado esté activo y se les envíen nuevos objetos. Para obtener más información, consulte Trabajos de etiquetado en streaming de Ground Truth.

  3. Para obtener más información sobre las operaciones disponibles para automatizar las operaciones de Ground Truth, consulte la API referencia del SageMaker servicio.