Modelos de idioma personalizados - Amazon Transcribe

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Modelos de idioma personalizados

Los modelos de idioma personalizados están diseñados para mejorar la precisión de la transcripción de la voz de un dominio específico. Esto incluye cualquier contenido que no sea el que escucharía en conversaciones normales y cotidianas. Por ejemplo, si está transcribiendo las actas de una conferencia científica, es poco probable que una transcripción estándar reconozca muchos de los términos científicos utilizados por los oradores. En este caso, puede entrenar un modelo de idioma personalizado para reconocer los términos especializados que se utilizan en su disciplina.

A diferencia de los vocabularios personalizados, que aumentan el reconocimiento de una palabra al proporcionar sugerencias (como las pronunciaciones), los modelos de idioma personalizados aprenden el contexto asociado a una palabra determinada. Esto incluye cómo y cuándo se usa una palabra y la relación que una palabra tiene con otras palabras. Por ejemplo, si entrenas su modelo con artículos de investigación sobre ciencias del clima, su modelo puede aprender que “témpano de hielo” es un par de palabras más probable que “flujo de hielo”.

Para ver los idiomas compatibles con los modelos de idioma personalizados, consulte Idiomas compatibles y características específicas de cada idioma. Tenga en cuenta que si incluye un modelo de idioma personalizado en su solicitud, no podrá habilitar la identificación del idioma (debe especificar un código de idioma).

Operaciones de la API específicas para los modelos de idioma personalizados

Origen de datos

Puede usar cualquier tipo de datos de texto que desee para entrenar su modelo. Sin embargo, cuanto más cerca esté el contenido de texto del contenido de audio, más preciso será el modelo. Por lo tanto, es importante elegir datos de texto que utilicen los mismos términos en el mismo contexto que el audio.

Los mejores datos para entrenar un modelo son las transcripciones precisas. Esto se considera datos en el dominio. Los datos de texto en el dominio tienen exactamente los mismos términos, uso y contexto que el audio que desee transcribir.

Si no dispone de transcripciones precisas, utilice artículos de revistas, informes técnicos, documentos técnicos, actas de conferencias, manuales de instrucciones, artículos de noticias, contenido de sitios web y cualquier otro texto que contenga los términos requeridos y que se utilicen en un contexto similar al del audio. Esto se considera datos relacionados con el dominio.

La creación de un modelo lingüístico personalizado sólido puede requerir una cantidad significativa de datos de texto, que deben contener los términos utilizados en el audio. Puedes proporcionar Amazon Transcribe hasta 2 GB de datos de texto para entrenar tu modelo, lo que se denomina datos de entrenamiento. Si lo prefiere, si no tiene transcripciones en el dominio (o tiene pocas), puede proporcionar Amazon Transcribe hasta 200 MB de datos de texto para ajustar el modelo, lo que se denomina datos de ajuste.

Datos de entrenamiento frente a datos de ajuste

El objetivo de los datos de entrenamiento es enseñar Amazon Transcribe a reconocer nuevos términos y aprender el contexto en el que se utilizan dichos términos. Para crear un modelo robusto, es posible que Amazon Transcribe requiera un gran volumen de datos de texto relevantes. Se recomienda encarecidamente proporcionar tantos datos de entrenamiento como sea posible, hasta el límite de 2 GB.

El objetivo de ajustar los datos es ayudar a refinar y optimizar las relaciones contextuales aprendidas a partir de los datos de entrenamiento. No se requieren datos de ajuste para crear un modelo de idioma personalizado.

Usted decide cuál es la mejor forma de seleccionar los datos de entrenamiento y, de forma opcional, los de ajuste. Cada caso es único y depende del tipo y la cantidad de datos de los que disponga. Se recomienda ajustar los datos cuando no se disponga de datos de entrenamiento en el dominio.

Si decide incluir ambos tipos de datos, no superponga los datos de entrenamiento y ajuste; los datos de entrenamiento y ajuste deben ser únicos. La superposición de datos puede sesgar y distorsionar su modelo de idioma personalizado, lo que repercute en la precisión.

Como orientación general, recomendamos utilizar texto preciso del dominio como datos de entrenamiento siempre que sea posible. Estos son algunos escenarios generales, enumerados por orden de preferencia:

  • Si tiene más de 10 000 palabras de texto de transcripción preciso en el dominio, úselo como datos de entrenamiento. En este caso, no es necesario incluir datos de ajuste. Este es el escenario ideal para entrenar un modelo de idioma personalizado.

  • Si tiene un texto de transcripción preciso en el dominio que contiene menos de 10 000 palabras y no obtiene los resultados deseados, considere la posibilidad de ampliar los datos de entrenamiento con textos escritos relacionados con el dominio, como informes técnicos. En este caso, reserve una pequeña parte (entre el 10 y el 25 %) de los datos de transcripción del dominio para utilizarlos como datos de ajuste.

  • Si no tiene ningún texto de transcripción en el dominio, cargue todo el texto relacionado con el dominio como datos de entrenamiento. En este caso, es preferible el texto con estilo de transcripción que el texto escrito. Este es el escenario ideal para entrenar un modelo de idioma personalizado.

Cuando esté listo para crear su modelo, consulte Creación de un modelo de idioma personalizado.