Modelos de lenguaje personalizados - Amazon Transcribe

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Modelos de lenguaje personalizados

Los modelos de lenguaje personalizados están diseñados para mejorar la precisión de la transcripción de la voz de un dominio específico. Esto incluye cualquier contenido que no sea lo que escucharías en las conversaciones normales y cotidianas. Por ejemplo, si va a transcribir las actas de una conferencia científica, es poco probable que una transcripción estándar reconozca muchos de los términos científicos utilizados por los presentadores. En este caso, puede entrenar un modelo de lenguaje personalizado para reconocer los términos especializados que se utilizan en su disciplina.

A diferencia de los vocabularios personalizados, que aumentan el reconocimiento de una palabra al proporcionar sugerencias (como las pronunciaciones), los modelos de lenguaje personalizados aprenden el contexto asociado a una palabra determinada. Esto incluye cómo y cuándo se usa una palabra, y la relación que una palabra tiene con otras palabras. Por ejemplo, si entrena su modelo con artículos de investigación sobre ciencias del clima, su modelo puede aprender que «témpano de hielo» es un par de palabras más probable que «flujo de hielo».

Para ver los idiomas compatibles con los modelos de idioma personalizados, consulteIdiomas compatibles y características específicas de cada idioma. Ten en cuenta que si incluyes un modelo de idioma personalizado en tu solicitud, no podrás habilitar la identificación del idioma (debes especificar un código de idioma).

Operaciones de API específicas para modelos de lenguaje personalizados

Orígenes de datos

Puede utilizar cualquier tipo de datos de texto que desee para entrenar el modelo. Sin embargo, cuanto más se acerque el contenido de texto al contenido de audio, más preciso será el modelo. Por lo tanto, es importante elegir datos de texto que usen los mismos términos en el mismo contexto que el audio.

Los mejores datos para entrenar un modelo son las transcripciones precisas. Se consideran datos del dominio. Los datos de texto del dominio tienen exactamente los mismos términos, uso y contexto que el audio que desea transcribir.

Si no dispone de transcripciones precisas, utilice artículos de revistas, informes técnicos, documentos técnicos, actas de conferencias, manuales de instrucciones, artículos de noticias, contenido de sitios web y cualquier otro texto que contenga los términos deseados y utilizados en un contexto similar al del audio. Se consideran datos relacionados con el dominio.

La creación de un modelo de idioma personalizado sólido puede requerir una cantidad significativa de datos de texto, que deben contener los términos pronunciados en el audio. Puede suministrar Amazon Transcribe hasta 2 GB de datos de texto para entrenar el modelo; esto se denomina datos de entrenamiento. De manera opcional, si no tiene transcripciones en el dominio (o tiene pocas), puede proporcionar Amazon Transcribe hasta 200 MB de datos de texto para ajustar el modelo; esto se denomina datos de ajuste.

Datos de entrenamiento frente a datos de ajuste

El propósito de los datos de entrenamiento es enseñar Amazon Transcribe a reconocer nuevos términos y aprender el contexto en el que se usan estos términos. Para crear un modelo robusto, Amazon Transcribe puede requerir un gran volumen de datos de texto relevantes. Se recomienda encarecidamente proporcionar la mayor cantidad posible de datos de entrenamiento, hasta el límite de 2 GB.

El propósito de ajustar los datos es ayudar a refinar y optimizar las relaciones contextuales aprendidas a partir de los datos de entrenamiento. No se requieren datos de ajuste para crear un modelo de idioma personalizado.

Tú decides la mejor manera de seleccionar los datos de entrenamiento y, si lo deseas, ajustar los datos. Cada caso es único y depende del tipo y la cantidad de datos de los que disponga. Se recomiendan los datos de ajuste cuando careces de datos de entrenamiento dentro del dominio.

Si decide incluir ambos tipos de datos, no superponga los datos de entrenamiento y ajuste; los datos de entrenamiento y ajuste deben ser únicos. La superposición de datos puede sesgar y sesgar el modelo de lenguaje personalizado, lo que repercute en su precisión.

Como orientación general, recomendamos utilizar texto preciso y propio del dominio como datos de entrenamiento siempre que sea posible. Estos son algunos escenarios generales, listados en orden de preferencia:

  • Si tienes más de 10 000 palabras de texto de transcripción preciso dentro del dominio, úsalo como datos de entrenamiento. En este caso, no es necesario incluir datos de ajuste. Este es el escenario ideal para entrenar un modelo de idioma personalizado.

  • Si dispones de un texto de transcripción interno preciso que contenga menos de 10 000 palabras y no obtengas los resultados deseados, considera la posibilidad de aumentar tus datos de entrenamiento con textos escritos relacionados con el dominio, como informes técnicos. En este caso, reserva una pequeña parte (del 10 al 25%) de los datos de transcripción del dominio para utilizarlos como datos de ajuste.

  • Si no tienes ningún texto de transcripción en el dominio, sube todo el texto relacionado con el dominio como datos de entrenamiento. En este caso, es preferible el texto tipo transcripción al texto escrito. Este es el escenario menos eficaz para entrenar un modelo de lenguaje personalizado.

Cuando esté listo para crear el modelo, consulteCreación de un modelo de idioma personalizado.