As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Criação de um modelo de linguagem personalizado
Antes de criar seu modelo de idioma personalizado, você deve:
-
Preparar seus dados. Os dados devem ser salvos em formato de texto simples e não podem conter caracteres especiais.
-
Carregue seus dados em um Amazon S3 bucket. É recomendável criar pastas separadas para treinamento e ajuste de dados.
-
Verifique se Amazon Transcribe tem acesso ao seu Amazon S3 bucket. Você deve especificar uma IAM função que tenha permissões de acesso para usar seus dados.
Preparação de seus dados
Você pode compilar todos os seus dados em um arquivo ou salvá-los como vários arquivos. Observe que, se você optar por incluir dados de ajuste, eles deverão ser salvos em um arquivo separado dos dados de treinamento.
Não importa quantos arquivos de texto você usa para seus dados de treinamento ou ajuste. O upload de um arquivo com 100.000 palavras produz o mesmo resultado do upload de 10 arquivos com 10.000 palavras. Prepare seus dados de texto da maneira mais conveniente para você.
Certifique-se de que todos os seus arquivos de dados atendam aos seguintes critérios:
-
Eles estão todos na mesma linguagem do modelo que você deseja criar. Por exemplo, se você quiser criar um modelo de idioma personalizado que transcreva áudio em inglês dos EUA (
en-US
), todos os seus dados de texto devem estar em inglês dos EUA. -
Eles estão no formato de texto sem formatação com codificação UTF-8.
-
Eles não contêm nenhum caractere ou formatação especial, como tags HTML.
-
Eles totalizam um total máximo combinado de 2 GB para dados de treinamento e 200 MB para dados de ajuste.
Se algum desses critérios não for atendido, o modelo falhará.
Upload de seus dados
Antes de carregar seus dados, crie uma nova pasta para seus dados de treinamento. Se estiver usando dados de ajuste, crie outra pasta separada.
Os URIs de seus buckets podem ter a seguinte aparência:
-
s3://DOC-EXAMPLE-BUCKET/my-model-training-data/
-
s3://DOC-EXAMPLE-BUCKET/my-model-tuning-data/
Carregue seus dados de treinamento e ajuste nos compartimentos apropriados.
Você pode adicionar mais dados a esses compartimentos em uma data posterior. No entanto, se você fizer isso, precisará recriar seu modelo com os novos dados. Os modelos existentes não podem ser atualizados com novos dados.
Permitindo o acesso aos seus dados
Para criar um modelo de linguagem personalizado, você deve especificar uma IAM função que tenha permissões para acessar seu Amazon S3 bucket. Se você ainda não tem uma função com acesso ao Amazon S3 bucket em que colocou seus dados de treinamento, você deve criar uma. Depois de criar uma função, é possível anexar uma política para conceder permissões a essa função. Não anexar uma política a um usuário.
Para obter exemplos de políticas, consulte Amazon Transcribe exemplos de políticas baseadas em identidade.
Para saber como criar uma nova IAM identidade, consulte IAMIdentidades (usuários, grupos de usuários e funções).
Para saber mais sobre as políticas, consulte:
Criando seu modelo de linguagem personalizado
Ao criar seu modelo de linguagem personalizado, você deve escolher um modelo base. Há duas opções de modelo básico:
-
NarrowBand
: Use essa opção para áudio com uma taxa de amostragem inferior a 16.000 Hz. Esse tipo de modelo é normalmente usado para conversas telefônicas gravadas a 8.000 Hz. -
WideBand
: Use essa opção para áudio com uma taxa de amostragem maior ou igual a 16.000 Hz.
Você pode criar modelos de linguagem personalizados usando oAWS Management Console,AWS CLI, ou AWS SDKs.; veja os exemplos a seguir:
-
Faça login no AWS Management Console
. -
No painel de navegação, escolha Modelo de idioma personalizado. Isso abre a página Modelos de idioma personalizados, na qual você pode visualizar os modelos de linguagem personalizados existentes ou treinar um novo modelo de idioma personalizado.
-
Para treinar um novo modelo, selecione Treinar modelo.
Isso leva você à página do modelo do Train. Adicione um nome, especifique o idioma e escolha o modelo básico que você deseja para seu modelo. Em seguida, adicione o caminho ao seu treinamento e, opcionalmente, seus dados de ajuste. Você deve incluir uma IAM função que tenha permissões para acessar seus dados.
-
Depois de preencher todos os campos, selecione Modelo de trem na parte inferior da página.
Este exemplo usa o create-language-modelCreateLanguageModel
e LanguageModel
.
aws transcribe create-language-model \ --base-model-name
NarrowBand
\ --model-namemy-first-language-model
\ --input-data-config S3Uri=s3://DOC-EXAMPLE-BUCKET
/my-clm-training-data
/,TuningDataS3Uri=s3://DOC-EXAMPLE-BUCKET
/my-clm-tuning-data
/,DataAccessRoleArn=arn:aws:iam::111122223333
:role/ExampleRole
\ --language-codeen-US
Aqui está outro exemplo usando o create-language-model
aws transcribe create-language-model \ --cli-input-json file://
filepath
/my-first-language-model
.json
O arquivo my-first-language-model.json contém o seguinte corpo da solicitação.
{ "BaseModelName": "
NarrowBand
", "ModelName": "my-first-language-model
", "InputDataConfig": { "S3Uri": "s3://DOC-EXAMPLE-BUCKET
/my-clm-training-data
/", "TuningDataS3Uri"="s3://DOC-EXAMPLE-BUCKET
/my-clm-tuning-data
/", "DataAccessRoleArn": "arn:aws:iam::111122223333
:role/ExampleRole
" }, "LanguageCode": "en-US
" }
Este exemplo usa o AWS SDK for Python (Boto3) para criar um CLM usando o método create_language_modelCreateLanguageModel
e LanguageModel
.
Para ver exemplos adicionais de uso dos AWS SDKs, incluindo exemplos específicos de recursos, cenários e entre serviços, consulte o capítulo. Exemplos de código para o Amazon Transcribe usando AWS SDKs
from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', '
us-west-2
') model_name = 'my-first-language-model
', transcribe.create_language_model( LanguageCode = 'en-US
', BaseModelName = 'NarrowBand
', ModelName = model_name, InputDataConfig = { 'S3Uri':'s3://DOC-EXAMPLE-BUCKET
/my-clm-training-data
/', 'TuningDataS3Uri':'s3://DOC-EXAMPLE-BUCKET
/my-clm-tuning-data
/', 'DataAccessRoleArn':'arn:aws:iam::111122223333
:role/ExampleRole
' } ) while True: status = transcribe.get_language_model(ModelName = model_name) if status['LanguageModel']['ModelStatus'] in ['COMPLETED', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)
Atualizando seu modelo de idioma personalizado
Amazon Transcribeatualiza continuamente os modelos básicos disponíveis para modelos de linguagem personalizados. Para se beneficiar dessas atualizações, recomendamos treinar novos modelos de linguagem personalizados a cada 6 a 12 meses.
Para ver se seu modelo de linguagem personalizado está usando o modelo base mais recente, execute uma DescribeLanguageModel
solicitação usando o AWS CLI ou um AWS SDK e encontre o UpgradeAvailability
campo em sua resposta.
Se UpgradeAvailability
estivertrue
, seu modelo não está executando a versão mais recente do modelo básico. Para usar o modelo base mais recente em um modelo de idioma personalizado, você deve criar um novo modelo de idioma personalizado. Modelos de linguagem personalizados não podem ser atualizados.