Listas de entidades (solo texto sin formato) - Amazon Comprehend

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Listas de entidades (solo texto sin formato)

Para entrenar un modelo usando una lista de entidades, debe proporcionar dos datos: una lista de los nombres de las entidades con sus correspondientes tipos de entidades personalizados y un conjunto de documentos sin anotaciones en los que espera que aparezcan esas entidades.

Al proporcionar una lista de entidades, Amazon Comprehend utiliza un algoritmo inteligente para detectar las apariciones de la entidad en los documentos y servir de base para el entrenamiento del modelo de reconocimiento de entidades personalizado.

En el caso de las listas de entidades, facilite al menos 25 entidades coincidentes por cada tipo de entidad de la lista de entidades.

Una lista de entidades para el reconocimiento de entidades personalizado requiere de un archivo de valores separados por comas (CSV) con las siguientes columnas:

  • Text: el texto de un ejemplo de entrada tal y como se ve en el corpus que acompaña al documento.

  • Type: el tipo de entidad definido por el cliente. Los tipos de entidad deben ser cadenas separadas por guiones bajos y en mayúsculas; por ejemplo, MANAGER o SENIOR_MANAGER. Se pueden entrenar hasta 25 tipos de entidades por modelo.

El archivo documents.txt contiene cuatro líneas:

Jo Brown is an engineer in the high tech industry. John Doe has been a engineer for 14 years. Emilio Johnson is a judge on the Washington Supreme Court. Our latest new employee, Jane Smith, has been a manager in the industry for 4 years.

El archivo CSV con la lista de entidades tiene las siguientes líneas:

Text, Type Jo Brown, ENGINEER John Doe, ENGINEER Jane Smith, MANAGER
nota

En la lista de entidades, la entrada de Emilio Johnson no está presente porque no contiene ni la entidad de ENGINEER ni la de MANAGER.

Crear sus archivos de datos

Es importante que la lista de entidades esté en un archivo CSV correctamente configurado para que las probabilidades de que surjan problemas con el archivo de la lista de entidades sean mínimas. Para configurar de forma manual el archivo CSV, lo siguiente debe ser verdadero:

  • La codificación UTF-8 debe especificarse de forma explícita, incluso cuando se utiliza de forma predeterminada en la mayoría de los casos.

  • Debe incluir los nombres de las columnas: Type y Text.

Se recomienda encarecidamente que los archivos de entrada CSV se creen mediante programación para evitar posibles problemas.

El siguiente ejemplo usa Python para generar un CSV para las anotaciones mostradas anteriormente:

import csv with open("./entitylist/entitylist.csv", "w", encoding="utf-8") as csv_file: csv_writer = csv.writer(csv_file) csv_writer.writerow(["Text", "Type"]) csv_writer.writerow(["Jo Brown", " ENGINEER"]) csv_writer.writerow(["John Doe", " ENGINEER"]) csv_writer.writerow(["Jane Smith", " MANAGER"])

Prácticas recomendadas

Hay varios aspectos que se deben tener en cuenta para obtener un resultado óptimo al utilizar una lista de entidades, entre los que se incluyen los siguientes:

  • El orden de las entidades de la lista no tiene ningún impacto sobre el entrenamiento de los modelos.

  • Utilice elementos de la lista de entidades que cubran entre el 80 y el 100 % de los ejemplos de entidades positivas que se mencionan en el corpus de documentos sin anotaciones.

  • Evite los ejemplos de entidades que coincidan con entidades que no se hayan incluido en el corpus del documento; para ello, elimine las palabras y las frases más comunes. Incluso unas cuantas coincidencias incorrectas pueden tener un impacto importante sobre la precisión del modelo resultante. Por ejemplo, una palabra como el en la lista de entidades dará como resultado un alto número de coincidencias, lo que probablemente no coincidirá con las entidades que usted busca y, por lo tanto, tendrá un impacto considerable en la precisión.

  • Los datos de entrada no deben contener duplicados. La presencia de muestras duplicadas puede contaminar el conjunto de prueba y afectar negativamente al proceso de entrenamiento, a las métricas del modelo y al comportamiento del modelo.

  • Proporcione documentos que se parezcan lo más posible a los casos de uso reales. No utilice datos de juguete ni datos sintetizados para los sistemas de producción. Los datos de entrada deben ser tan diversos como sea posible para evitar el sobreajuste y así ayudar al modelo subyacente a generalizar mejor a partir de ejemplos reales.

  • La lista de entidades distingue entre mayúsculas y minúsculas; además, actualmente no se admiten expresiones regulares. Sin embargo, el modelo entrenado a menudo es capaz de reconocer entidades incluso cuando estas no coinciden completamente con las mayúsculas y minúsculas que aparecen en la lista de entidades.

  • Si hay una entidad que sea una subcadena de otra entidad (como “Smith” y “Jane Smith”), incluya ambas en la lista de entidades.

Encontrará sugerencias adicionales en Mejora del rendimiento del reconocedor de entidades personalizado