Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Preparación de los datos de entrenamiento del reconocedor de entidades
Para entrenar un modelo de reconocimiento de entidades personalizado exitoso, es importante proporcionar al entrenador del modelo datos de alta calidad como entrada. Sin datos fiables, el modelo no aprenderá a identificar correctamente las entidades.
Puede elegir entre dos formas de proporcionar datos a Amazon Comprehend para entrenar un modelo de reconocimiento de entidades personalizado:
-
Lista de entidades: enumera las entidades específicas para que Amazon Comprehend pueda entrenarse para identificar sus entidades personalizadas. Nota: Las listas de entidades solo se pueden usar para documentos de texto simple.
-
Anotaciones: proporciona la ubicación de sus entidades en varios documentos para que Amazon Comprehend pueda formarse sobre la entidad y su contexto. Para crear un modelo para analizar archivos de imagen o documentos de Word PDFs, debe entrenar a su reconocedor mediante anotaciones en PDF.
En ambos casos, Amazon Comprehend aprende sobre el tipo de documentos y el contexto en el que se encuentran las entidades y crea un reconocedor que puede generalizar para detectar las nuevas entidades al analizar los documentos.
Cuando crea un modelo personalizado (o entrena una nueva versión), puede proporcionar un conjunto de datos de prueba. Si no proporciona datos de prueba, Amazon Comprehend reserva el 10 % de los documentos de entrada para probar el modelo. Amazon Comprehend entrena el modelo con el resto de los documentos.
Si proporciona un conjunto de datos de prueba para su conjunto de entrenamiento de anotaciones, los datos de prueba deben incluir al menos una anotación para cada uno de los tipos de entidad especificados en la solicitud de creación.
Temas
Cuándo usar anotaciones en lugar de listas de entidades
Crear anotaciones requiere más trabajo que crear una lista de entidades, pero el modelo resultante puede ser mucho más preciso. El uso de una lista de entidades es más rápido y requiere menos trabajo, pero los resultados son menos refinados y menos precisos. Esto se debe a que las anotaciones proporcionan más contexto para que Amazon Comprehend las utilice al entrenar el modelo. Sin ese contexto, Amazon Comprehend tendrá un mayor número de falsos positivos al intentar identificar las entidades.
Hay situaciones en las que tiene más sentido desde el punto de vista empresarial evitar el aumento de los gastos y la carga de trabajo que supone el uso de anotaciones. Por ejemplo, el nombre John Johnson es importante para la búsqueda, pero no importa si se trata de la persona exacta. O bien, si utiliza la lista de entidades, las métricas son lo suficientemente buenas como para proporcionarte los resultados de reconocimiento que necesitas. En esos casos, utilizar una lista de entidades en su lugar puede ser la opción más eficaz.
Recomendamos utilizar el modo de anotaciones en los siguientes casos:
-
Si planea realizar inferencias para archivos de imagen o documentos de PDFs Word. En este escenario, se entrena un modelo con archivos PDF anotados y se utiliza el modelo para ejecutar trabajos de inferencia para archivos de imagen y documentos de PDFs Word.
-
Cuando el significado de las entidades puede ser ambiguo y depender del contexto. Por ejemplo, el término Amazon podría referirse al río en Brasil o a la tienda online Amazon.com. Cuando crea un reconocedor de entidades personalizado para identificar entidades empresariales como Amazon, debería usar anotaciones en lugar de una lista de entidades, ya que este método permite utilizar mejor el contexto para buscar entidades.
-
Cuando se sienta cómodo configurando un proceso para adquirir anotaciones, lo que puede requerir cierto esfuerzo.
Recomendamos utilizar una lista de entidades en los siguientes casos:
-
Cuando ya tenga una lista de entidades o cuando sea relativamente fácil redactar una lista completa de entidades. Si utiliza una lista de entidades, la lista debe estar completa o, como mínimo, incluir la mayoría de las entidades válidas que puedan aparecer en los documentos que proporciones para la formación.
-
Para los usuarios que la utilizan por primera vez, generalmente se recomienda utilizar una lista de entidades, ya que esto requiere menos esfuerzo que crear anotaciones. Sin embargo, es importante tener en cuenta que el modelo entrenado podría no ser tan preciso como si se utilizaran anotaciones.