Création d'un modèle de langage personnalisé - Amazon Transcribe

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Création d'un modèle de langage personnalisé

Avant de créer votre modèle de langage personnalisé, vous devez :

  • Préparation de vos données. Les données doivent être enregistrées au format texte brut et ne peuvent contenir aucun caractère spécial.

  • Chargez vos données dans un Amazon S3 bucket. Il est recommandé de créer des dossiers distincts pour les données d'entraînement et de réglage.

  • Assurez-vous d'Amazon Transcribeavoir accès à votre Amazon S3 bucket. Vous devez spécifier un IAM rôle doté d'autorisations d'accès pour utiliser vos données.

Préparation de vos données

Vous pouvez compiler toutes vos données dans un seul fichier ou les enregistrer sous forme de fichiers multiples. Notez que si vous choisissez d'inclure des données de réglage, celles-ci doivent être enregistrées dans un fichier distinct de vos données d'entraînement.

Peu importe le nombre de fichiers texte que vous utilisez pour vos données d'entraînement ou de réglage. Le téléchargement d'un fichier de 100 000 mots produit le même résultat que le téléchargement de 10 fichiers de 10 000 mots. Préparez vos données de texte de la manière qui vous convient le mieux.

Assurez-vous que tous vos fichiers de données répondent aux critères suivants :

  • Ils sont tous rédigés dans la même langue que le modèle que vous souhaitez créer. Par exemple, si vous souhaitez créer un modèle de langue personnalisé qui transcrit le son en anglais américain (en-US), toutes vos données de texte doivent être en anglais américain.

  • Ils sont au format texte brut avec un encodage UTF-8.

  • Ils ne contiennent aucun caractère spécial ni aucune mise en forme, tels que des balises HTML.

  • Leur taille totale combinée maximale est de 2 Go pour les données d'entraînement et de 200 Mo pour les données de réglage.

Si l'un de ces critères n'est pas satisfait, votre modèle échoue.

Chargement de vos données

Avant de charger vos données, créez un nouveau dossier pour vos données d'entraînement. Si vous utilisez des données de réglage, créez un autre dossier distinct.

Les URI de vos compartiments peuvent ressembler à :

  • s3://DOC-EXAMPLE-BUCKET/my-model-training-data/

  • s3://DOC-EXAMPLE-BUCKET/my-model-tuning-data/

Chargez vos données d'entraînement et de réglage dans les compartiments appropriés.

Vous pourrez ajouter d'autres données à ces compartiments ultérieurement. Toutefois, si vous le faites, vous devez recréer votre modèle avec les nouvelles données. Les modèles existants ne peuvent pas être mis à jour avec de nouvelles données.

Autoriser l'accès à vos données

Pour créer un modèle de langage personnalisé, vous devez spécifier un IAM rôle autorisé à accéder à votre Amazon S3 bucket. Si vous ne possédez pas encore de rôle ayant accès au Amazon S3 bucket dans lequel vous avez placé vos données d'entraînement, vous devez en créer un. Une fois que vous avez créé un rôle, vous pouvez attacher une politique pour attacher des autorisations à ce rôle. N'attachez pas de politique à un utilisateur.

Pour obtenir des exemples de politiques, consultez Amazon Transcribe exemples de politiques basées sur l'identité.

Pour savoir comment créer une nouvelle IAM identité, voir IAMIdentités (utilisateurs, groupes d'utilisateurs et rôles).

Pour en savoir plus sur les stratégies, consultez :

Création de votre modèle de langue personnalisé

Lorsque vous créez votre modèle de langue personnalisé, vous devez choisir un modèle de base. Il existe deux options de modèle de base :

  • NarrowBand: utilisez cette option pour les fichiers audio dont la fréquence d'échantillonnage est inférieure à 16 000 Hz. Ce type de modèle est généralement utilisé pour les conversations téléphoniques enregistrées à 8 000 Hz.

  • WideBand: utilisez cette option pour le son dont la fréquence d'échantillonnage est supérieure ou égale à 16 000 Hz.

Vous pouvez créer des modèles de langage personnalisés à l'AWS Management Consoleaide des kits de AWS développement logiciel (SDK) ou des kits de développement logiciel (SDK). Consultez les exemples suivants : AWS CLI

  1. Connectez-vous à AWS Management Console.

  2. Dans le volet de navigation, choisissez un modèle de langue personnalisé. Cela ouvre la page Modèles de langage personnalisés où vous pouvez consulter les modèles de langage personnalisés existants ou former un nouveau modèle de langage personnalisé.

  3. Pour entraîner un nouveau modèle, sélectionnez Train model.

    Amazon Transcribecapture d'écran de la console : la page « modèles de langage personnalisés ».

    Vous accédez alors à la page du modèle de train. Ajoutez un nom, spécifiez la langue et choisissez le modèle de base que vous souhaitez pour votre modèle. Ajoutez ensuite le parcours à votre entraînement et, éventuellement, vos données de réglage. Vous devez inclure un IAM rôle autorisé à accéder à vos données.

    Amazon Transcribecapture d'écran de la console : la page « modèles de trains ».
  4. Une fois que vous avez rempli tous les champs, sélectionnez Modèle de train au bas de la page.

Cet exemple utilise la create-language-modelcommande. Pour plus d'informations, consultez CreateLanguageModel et LanguageModel.

aws transcribe create-language-model \ --base-model-name NarrowBand \ --model-name my-first-language-model \ --input-data-config S3Uri=s3://DOC-EXAMPLE-BUCKET/my-clm-training-data/,TuningDataS3Uri=s3://DOC-EXAMPLE-BUCKET/my-clm-tuning-data/,DataAccessRoleArn=arn:aws:iam::111122223333:role/ExampleRole \ --language-code en-US

Voici un autre exemple utilisant la create-language-modelcommande et un corps de requête qui crée votre modèle de langage personnalisé.

aws transcribe create-language-model \ --cli-input-json file://filepath/my-first-language-model.json

Le fichier my-first-language-model.json contient le corps de requête suivant.

{ "BaseModelName": "NarrowBand", "ModelName": "my-first-language-model", "InputDataConfig": { "S3Uri": "s3://DOC-EXAMPLE-BUCKET/my-clm-training-data/", "TuningDataS3Uri"="s3://DOC-EXAMPLE-BUCKET/my-clm-tuning-data/", "DataAccessRoleArn": "arn:aws:iam::111122223333:role/ExampleRole" }, "LanguageCode": "en-US" }

Cet exemple utilise le AWS SDK for Python (Boto3) pour créer une CLM à l'aide de la méthode create_language_model. Pour plus d'informations, consultez CreateLanguageModel et LanguageModel.

Pour des exemples supplémentaires utilisant les AWS kits SDK, notamment des exemples spécifiques aux fonctionnalités, des scénarios et des exemples interservices, consultez le chapitre. Exemples de code pour Amazon Transcribe à l'aide de AWS SDKs

from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') model_name = 'my-first-language-model', transcribe.create_language_model( LanguageCode = 'en-US', BaseModelName = 'NarrowBand', ModelName = model_name, InputDataConfig = { 'S3Uri':'s3://DOC-EXAMPLE-BUCKET/my-clm-training-data/', 'TuningDataS3Uri':'s3://DOC-EXAMPLE-BUCKET/my-clm-tuning-data/', 'DataAccessRoleArn':'arn:aws:iam::111122223333:role/ExampleRole' } ) while True: status = transcribe.get_language_model(ModelName = model_name) if status['LanguageModel']['ModelStatus'] in ['COMPLETED', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)

Mettre à jour votre modèle de langue personnalisé

Amazon Transcribemet continuellement à jour les modèles de base disponibles pour les modèles linguistiques personnalisés. Pour bénéficier de ces mises à jour, nous vous recommandons de former de nouveaux modèles linguistiques personnalisés tous les 6 à 12 mois.

Pour savoir si votre modèle de langage personnalisé utilise le dernier modèle de base, exécutez une DescribeLanguageModelrequête à l'aide du SDK AWS CLI ou d'un AWS SDK, puis recherchez le UpgradeAvailability champ dans votre réponse.

Si UpgradeAvailability tel est true le cas, votre modèle n'exécute pas la dernière version du modèle de base. Pour utiliser le dernier modèle de base dans un modèle de langue personnalisé, vous devez créer un nouveau modèle de langue personnalisé. Les modèles linguistiques personnalisés ne peuvent pas être mis à niveau.