Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Creación de un modelo de idioma personalizado
Antes de poder crear su modelo de idioma personalizado, debe:
-
Preparación de datos. Los datos deben guardarse en formato de texto plano y no pueden contener caracteres especiales.
-
Sube tus datos a un Amazon S3 depósito. Se recomienda crear carpetas separadas para los datos de entrenamiento y ajuste.
-
Asegúrate de Amazon Transcribe tener acceso a tu Amazon S3 cubo. Debe especificar un IAM rol que tenga permisos de acceso para usar sus datos.
Preparación de datos
Puede compilar todos los datos en un archivo o guardarlos como varios archivos. Ten en cuenta que si decides incluir datos de ajuste, debes guardarlos en un archivo independiente de los datos de entrenamiento.
No importa cuántos archivos de texto utilices para tus datos de entrenamiento o ajuste. Subir un archivo con 100 000 palabras produce el mismo resultado que subir 10 archivos con 10 000 palabras. Prepare los datos de texto de la forma que más le convenga.
Asegúrese de que todos los archivos de datos cumplen los siguientes criterios:
-
Todos están en el mismo idioma que el modelo que desea crear. Por ejemplo, si desea crear un modelo de idioma personalizado que transcriba audio en inglés estadounidense (
en-US
), todos sus datos de texto deben estar en inglés estadounidense. -
Están en formato de texto plano con codificación UTF-8.
-
No contienen caracteres ni formatos especiales, como etiquetas HTML.
-
Suponen un total máximo combinado de 2 GB para los datos de entrenamiento y 200 MB para los datos de ajuste.
Si no se cumple, el modelo no funciona.
Carga de datos
Antes de subir tus datos, crea una nueva carpeta para tus datos de entrenamiento. Si utiliza datos de ajuste, cree otra carpeta independiente.
Los URI de los buckets podrían tener el siguiente aspecto:
-
s3://DOC-EXAMPLE-BUCKET/my-model-training-data/
-
s3://DOC-EXAMPLE-BUCKET/my-model-tuning-data/
Sube tus datos de entrenamiento y ajuste a los grupos adecuados.
Puede añadir más datos a estos depósitos más adelante. Sin embargo, si lo hace, tendrá que volver a crear el modelo con los nuevos datos. Los modelos existentes no se pueden actualizar con datos nuevos.
Permitir el acceso a sus datos
Para crear un modelo de idioma personalizado, debes especificar un IAM rol que tenga permisos para acceder a tu Amazon S3 bucket. Si aún no tienes un rol con acceso al Amazon S3 depósito en el que has colocado tus datos de entrenamiento, debes crear uno. Una vez que adjunta un rol, puede adjuntar una política para conceder permisos a ese rol. No adjunta una política a un usuario.
Para ver ejemplos de políticas, consulte Amazon Transcribe ejemplos de políticas basadas en la identidad.
Para obtener información sobre cómo crear una IAM identidad nueva, consulte IAMIdentidades (usuarios, grupos de usuarios y roles).
Para obtener más información sobre las políticas, consulte:
Creación de un modelo de idioma personalizado
Al crear su modelo de idioma personalizado, debe elegir un modelo base. Hay dos opciones de modelo base:
-
NarrowBand
: utilice esta opción para audio con una frecuencia de muestreo inferior a 16.000 Hz. Este tipo de modelo se utiliza normalmente para conversaciones telefónicas grabadas a 8.000 Hz. -
WideBand
: utilice esta opción para audio con una frecuencia de muestreo igual o superior a 16.000 Hz.
Puede crear modelos de lenguaje personalizados mediante los SDK AWS Management ConsoleAWS CLI, o AWS los SDK. Consulte los siguientes ejemplos:
-
Inicie sesión en AWS Management Console
. -
En el panel de navegación, elija Modelo de idioma personalizado. Se abre la página Modelos de idioma personalizados, donde puede ver los modelos de idioma personalizados existentes o entrenar un nuevo modelo de idioma personalizado.
-
Para entrenar un modelo nuevo, selecciona Entrenar modelo.
Esto le llevará a la página del modelo de tren. Añada un nombre, especifique el idioma y elija el modelo base que desee para su modelo. A continuación, añade la ruta a tu entrenamiento y, opcionalmente, tus datos de ajuste. Debe incluir un IAM rol que tenga permisos para acceder a sus datos.
-
Una vez que haya completado todos los campos, seleccione Modelo de tren en la parte inferior de la página.
En este ejemplo se usa el create-language-modelCreateLanguageModel
y LanguageModel
.
aws transcribe create-language-model \ --base-model-name
NarrowBand
\ --model-namemy-first-language-model
\ --input-data-config S3Uri=s3://DOC-EXAMPLE-BUCKET
/my-clm-training-data
/,TuningDataS3Uri=s3://DOC-EXAMPLE-BUCKET
/my-clm-tuning-data
/,DataAccessRoleArn=arn:aws:iam::111122223333
:role/ExampleRole
\ --language-codeen-US
Este es otro ejemplo de uso del create-language-model
aws transcribe create-language-model \ --cli-input-json file://
filepath
/my-first-language-model
.json
El archivo my-first-language-model.json contiene el siguiente cuerpo de solicitud.
{ "BaseModelName": "
NarrowBand
", "ModelName": "my-first-language-model
", "InputDataConfig": { "S3Uri": "s3://DOC-EXAMPLE-BUCKET
/my-clm-training-data
/", "TuningDataS3Uri"="s3://DOC-EXAMPLE-BUCKET
/my-clm-tuning-data
/", "DataAccessRoleArn": "arn:aws:iam::111122223333
:role/ExampleRole
" }, "LanguageCode": "en-US
" }
En este ejemplo, se utiliza AWS SDK for Python (Boto3) para crear una CLM mediante el método create_language_modelCreateLanguageModel
y LanguageModel
.
Para ver más ejemplos de uso de AWS los SDK, incluidos ejemplos de funciones específicas, escenarios y multiservicios, consulte el capítulo. Ejemplos de código para Amazon Transcribe usando AWS SDKs
from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', '
us-west-2
') model_name = 'my-first-language-model
', transcribe.create_language_model( LanguageCode = 'en-US
', BaseModelName = 'NarrowBand
', ModelName = model_name, InputDataConfig = { 'S3Uri':'s3://DOC-EXAMPLE-BUCKET
/my-clm-training-data
/', 'TuningDataS3Uri':'s3://DOC-EXAMPLE-BUCKET
/my-clm-tuning-data
/', 'DataAccessRoleArn':'arn:aws:iam::111122223333
:role/ExampleRole
' } ) while True: status = transcribe.get_language_model(ModelName = model_name) if status['LanguageModel']['ModelStatus'] in ['COMPLETED', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)
Actualización del modelo de idioma personalizado
Amazon Transcribeactualiza continuamente los modelos base disponibles para los modelos de idioma personalizados. Para aprovechar estas actualizaciones, recomendamos entrenar nuevos modelos de idioma personalizados cada 6 a 12 meses.
Para comprobar si su modelo de idioma personalizado utiliza el modelo base más reciente, ejecute una DescribeLanguageModel
solicitud mediante el SDK AWS CLI o un AWS SDK y, a continuación, busque el UpgradeAvailability
campo en la respuesta.
Si UpgradeAvailability
es true
así, el modelo no ejecuta la versión más reciente del modelo base. Para utilizar el modelo base más reciente en un modelo de idioma personalizado, debe crear un nuevo modelo de idioma personalizado. Los modelos de idioma personalizados no se pueden actualizar.