Cómo entrenar reconocedores personalizados (consola) - Amazon Comprehend

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Cómo entrenar reconocedores personalizados (consola)

Puede crear reconocedores de entidades personalizados mediante la consola Amazon Comprehend. Esta sección muestra cómo crear y entrenar un reconocedor de entidades personalizado.

Temas

    Para crear el reconocedor de entidades personalizado, primero proporciona un conjunto de datos para entrenar su modelo. Con este conjunto de datos, incluya uno de los siguientes: un conjunto de documentos anotados o una lista de entidades y su etiqueta de tipo, junto con un conjunto de documentos que contengan esas entidades. Para obtener más información, consulte Reconocimiento de entidades personalizado

    Cómo entrenar un reconocedor de entidades personalizado con un archivo CSV
    1. Inicie sesión en la consola Amazon Comprehend AWS Management Console y ábrala en https://console.aws.amazon.com/comprehend/

    2. En el menú de la izquierda, seleccione Personalización y, a continuación, seleccione Reconocimiento de entidades personalizado.

    3. Seleccione Crear nuevo modelo.

    4. Asignarle un nombre al reconocedor. El nombre debe ser único en una región y en una cuenta.

    5. Elija el idioma.

    6. En Tipo de entidad personalizada, introduzca una etiqueta personalizada que desee que el reconocedor encuentre en el conjunto de datos.

      El tipo de entidad debe estar en mayúscula y, si consta de más de una palabra, sepáralas con un guion bajo.

    7. Seleccione Agregar etiqueta.

    8. Si desea agregar un tipo de entidad adicional, introdúzcalo y, a continuación, seleccione Agregar tipo. Si desea eliminar uno de los tipos de entidad que ha agregado, seleccione Eliminar tipo y, a continuación, seleccione el tipo de entidad que desee eliminar de la lista. Puede incluir un máximo de 25 tipos de entidades.

    9. Para cifrar un trabajo de entrenamiento, seleccione Cifrado de reconocedor y, luego, seleccione si desea utilizar una clave de KMS asociada a la cuenta actual o una de otra cuenta.

      • Si utiliza una clave asociada a la cuenta actual, elija la ID de clave para la ID de clave de KMS.

      • Si utiliza una clave asociada a una cuenta diferente, introduzca el ARN de la ID de clave en ARN de clave KMS.

      nota

      Para obtener más información sobre la creación y el uso de las claves de KMS y el cifrado asociado, consulte AWS Key Management Service.

    10. En Especificaciones de datos, seleccione el formato de sus documentos de entrenamiento:

      • Archivo CSV: un archivo CSV que complementa sus documentos de entrenamiento. El archivo CSV contiene información sobre las entidades personalizadas que detectará su modelo entrenado. El formato requerido del archivo depende de si proporciona anotaciones o una lista de entidades.

      • Manifiesto aumentado: conjunto de datos etiquetado producido por Amazon SageMaker Ground Truth. Este archivo está en formato de líneas JSON. Cada línea es un objeto JSON completo que contiene un documento de entrenamiento y sus etiquetas. Cada etiqueta anota una entidad con nombre en el documento de entrenamiento. Puede brindar hasta 5 archivos de manifiesto aumentados.

      Para obtener más información sobre los formatos disponibles y ver ejemplos, consulte Entrenamiento de los modelos de reconocedores personalizados de entidades.

    11. En Tipo de entrenamiento, seleccione el tipo de entrenamiento que desea utilizar:

      • Uso de anotaciones y documentos de entrenamiento

      • Uso de la lista de entidades y los documentos de entrenamiento

      Si selecciona anotaciones, introduzca la URL del archivo de anotaciones en Amazon S3. También puede navegar hasta el bucket o la carpeta de Amazon S3 donde se encuentran los archivos de anotaciones y seleccionar Explorar S3.

      Si elige una lista de entidades, introduzca la URL de la lista de entidades en Amazon S3. También puede navegar hasta el bucket o la carpeta de Amazon S3 donde se encuentra la lista de entidades y seleccionar Explorar S3.

    12. Introduzca la URL de un conjunto de datos de entrada que contenga los documentos de entrenamiento en Amazon S3. También puede navegar hasta el bucket o la carpeta de Amazon S3 donde se encuentran los archivos de entrenamiento y seleccionar Seleccionar carpeta.

    13. En Probar conjunto de datos, seleccione cómo quiere evaluar el rendimiento de su modelo entrenado. Puede hacerlo tanto para los tipos de entrenamiento con anotaciones como con listas de entidades.

      • Autosplit: Autosplit selecciona automáticamente el 10 % de los datos de entrenamiento proporcionados para usarlos como datos de prueba

      • (Opcional) Proporcionados por el cliente: al seleccionar los proporcionados por el cliente, puede especificar exactamente qué datos de prueba desea utilizar.

    14. Si selecciona Conjunto de datos de prueba proporcionado por el cliente, introduzca la URL del archivo de anotaciones en Amazon S3. También puede navegar hasta el bucket o la carpeta de Amazon S3 donde se encuentran los archivos de anotaciones y seleccionar Seleccionar carpeta.

    15. En la sección Seleccione un rol de IAM, seleccione un rol de IAM existente o cree uno nuevo.

      • Elija un rol de IAM existente: seleccione esta opción si ya tiene un rol de IAM con permisos para acceder a los buckets de entrada y salida de Amazon S3.

      • Crear un nuevo rol de IAM: seleccione esta opción si desea crear un nuevo rol de IAM con los permisos adecuados para que Amazon Comprehend pueda acceder a los buckets de entrada y salida.

        nota

        Si los documentos de entrada están cifrados, el rol de IAM utilizado debe tener permiso de kms:Decrypt. Para obtener más información, consulte Permisos necesarios para utilizar el cifrado KMS.

    16. (Opcional) Para lanzar sus recursos a Amazon Comprehend desde una VPC, introduzca el ID de VPC en VPC o elija el ID en la lista desplegable.

      1. Seleccione la subred en Subred(es). Después de seleccionar la primera subred, puede elegir otras adicionales.

      2. En Grupo(s) de seguridad, seleccione el grupo de seguridad que desea usar si especificó uno. Después de seleccionar el primer grupo de seguridad, puede elegir otros adicionales.

      nota

      Cuando utiliza una VPC con su trabajo de reconocimiento de entidad personalizado, el DataAccessRole utilizado para las operaciones de creación e inicio debe tener permiso en la VPC desde la cual se ha accedido a los documentos de entrada y el bucket de salida.

    17. (Opcional) Para agregar una etiqueta al reconocedor de entidades personalizado, ingrese un par valor-clave en Etiquetas. Seleccione Agregar etiqueta. Para eliminar este par antes de crear el reconocedor, seleccione Eliminar etiqueta.

    18. Seleccione Capacitar.

    El nuevo reconocedor aparecerá entonces en la lista y mostrará su estado. Primero se mostrará como Submitted. A continuación, se mostrará el Training de un clasificador que esté procesando documentos de entrenamiento, el Trained de un clasificador que esté listo para usarse y el In error de un clasificador que tenga un error. Puede hacer clic en un trabajo para obtener más información sobre el reconocedor, incluidos los mensajes de error.

    Cómo entrenar un reconocedor de entidades personalizado con un documento de texto plano, PDF o Word
    1. Inicie sesión en la consola de Amazon Comprehend AWS Management Console y ábrala.

    2. En el menú de la izquierda, seleccione Personalización y, a continuación, seleccione Reconocimiento de entidades personalizado.

    3. Seleccione el Reconocedor de entrenamiento.

    4. Asignarle un nombre al reconocedor. El nombre debe ser único en una región y en una cuenta.

    5. Elija el idioma. Nota: Si está entrenando un documento PDF o Word, el idioma admitido es el inglés.

    6. En Tipo de entidad personalizada, introduzca una etiqueta personalizada que desee que el reconocedor encuentre en el conjunto de datos.

      El tipo de entidad debe estar en mayúscula y, si consta de más de una palabra, sepáralas con un guion bajo.

    7. Seleccione Agregar etiqueta.

    8. Si desea agregar un tipo de entidad adicional, introdúzcalo y, a continuación, seleccione Agregar tipo. Si desea eliminar uno de los tipos de entidad que ha agregado, seleccione Eliminar tipo y, a continuación, seleccione el tipo de entidad que desee eliminar de la lista. Puede incluir un máximo de 25 tipos de entidades.

    9. Para cifrar un trabajo de entrenamiento, seleccione Cifrado de reconocedor y, luego, seleccione si desea utilizar una clave de KMS asociada a la cuenta actual o una de otra cuenta.

      • Si utiliza una clave asociada a la cuenta actual, elija la ID de clave para la ID de clave de KMS.

      • Si utiliza una clave asociada a una cuenta diferente, introduzca el ARN de la ID de clave en ARN de clave KMS.

      nota

      Para obtener más información sobre la creación y el uso de las claves de KMS y el cifrado asociado, consulte AWS Key Management Service.

    10. En Datos de entrenamiento, seleccione Manifiesto aumentado como formato de datos:

      • Manifiesto aumentado: es un conjunto de datos etiquetado producido por Amazon SageMaker Ground Truth. Este archivo está en formato de líneas JSON. Cada línea en el archivo es un objeto JSON completo que contiene un documento de entrenamiento y sus etiquetas. Cada etiqueta anota una entidad con nombre en el documento de entrenamiento. Puede brindar hasta 5 archivos de manifiesto aumentados. Si utiliza documentos PDF para los datos de entrenamiento, debe seleccionar el manifiesto aumentado. Puede brindar hasta 5 archivos de manifiesto aumentados. Para cada archivo, puede asignar un nombre a un máximo de 5 atributos para usarlos como datos de entrenamiento.

      Para obtener más información sobre los formatos disponibles y ver ejemplos, consulte Entrenamiento de los modelos de reconocedores personalizados de entidades.

    11. Seleccione el tipo de modelo de entrenamiento.

      Si seleccionó Documentos de texto sin formato, en Ubicación de entrada, introduzca la URL de Amazon S3 del archivo de manifiesto aumentado de Amazon SageMakerGround Truth. También puede navegar hasta el bucket o la carpeta de Amazon S3 donde se encuentran el/los manifiesto(s) aumentado(s) y seleccionar Seleccionar carpeta.

    12. En Nombre del atributo, introduzca el nombre del atributo que contiene sus anotaciones. Si el archivo contiene anotaciones de varios trabajos de etiquetado encadenados, añada un atributo para cada trabajo. En este caso, cada atributo contiene el conjunto de anotaciones de un trabajo de etiquetado. Nota: Puede proporcionar hasta 5 nombres de atributos para cada archivo.

    13. Seleccione Añadir.

    14. Si seleccionaste PDF o documentos de Word en la ubicación de entrada, introduce la URL de Amazon S3 del archivo de manifiesto aumentado de Amazon SageMaker Ground Truth. También puede navegar hasta el bucket o la carpeta de Amazon S3 donde se encuentran el/los manifiesto(s) aumentado(s) y seleccionar Seleccionar carpeta.

    15. Introduzca el prefijo S3 para sus archivos de datos Anotaciones. Estos son los documentos PDF que etiquetaste.

    16. Introduzca el prefijo S3 para sus documentos fuente. Estos son los documentos PDF originales (objetos de datos) que proporcionó a Ground Truth para su trabajo de etiquetado.

    17. Introduzca los nombres de los atributos que contienen sus anotaciones. Nota: Puede proporcionar hasta 5 nombres de atributos para cada archivo. Se ignorarán todos los atributos del archivo que no especifique.

    18. En la sección rol de IAM, seleccione un rol de IAM existente o cree uno nuevo.

      • Elija un rol de IAM existente: seleccione esta opción si ya tiene un rol de IAM con permisos para acceder a los buckets de entrada y salida de Amazon S3.

      • Crear un nuevo rol de IAM: seleccione esta opción si desea crear un nuevo rol de IAM con los permisos adecuados para que Amazon Comprehend pueda acceder a los buckets de entrada y salida.

        nota

        Si los documentos de entrada están cifrados, el rol de IAM utilizado debe tener permiso de kms:Decrypt. Para obtener más información, consulte Permisos necesarios para utilizar el cifrado KMS.

    19. (Opcional) Para lanzar sus recursos a Amazon Comprehend desde una VPC, introduzca el ID de VPC en VPC o elija el ID en la lista desplegable.

      1. Seleccione la subred en Subred(es). Después de seleccionar la primera subred, puede elegir otras adicionales.

      2. En Grupo(s) de seguridad, seleccione el grupo de seguridad que desea usar si especificó uno. Después de seleccionar el primer grupo de seguridad, puede elegir otros adicionales.

      nota

      Cuando utiliza una VPC con su trabajo de reconocimiento de entidad personalizado, el DataAccessRole utilizado para las operaciones de creación e inicio debe tener permiso en la VPC desde la cual se ha accedido a los documentos de entrada y el bucket de salida.

    20. (Opcional) Para agregar una etiqueta al reconocedor de entidades personalizado, ingrese un par valor-clave en Etiquetas. Seleccione Agregar etiqueta. Para eliminar este par antes de crear el reconocedor, seleccione Eliminar etiqueta.

    21. Seleccione Capacitar.

    El nuevo reconocedor aparecerá entonces en la lista y mostrará su estado. Primero se mostrará como Submitted. A continuación, se mostrará el Training de un clasificador que esté procesando documentos de entrenamiento, el Trained de un clasificador que esté listo para usarse y el In error de un clasificador que tenga un error. Puede hacer clic en un trabajo para obtener más información sobre el reconocedor, incluidos los mensajes de error.