Cotas do Amazon Bedrock - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Cotas do Amazon Bedrock

Você Conta da AWS tem cotas padrão, anteriormente chamadas de limites, para o Amazon Bedrock. Para ver as cotas de serviço do Amazon Bedrock, siga as etapas em Visualizar cotas de serviço e selecione Amazon Bedrock como serviço. Algumas cotas diferem de acordo com o modelo. A menos que especificado de outra forma, uma cota se aplica a todas as versões de um modelo.

Para manter o desempenho do serviço e garantir o uso adequado do Amazon Bedrock, as cotas padrão atribuídas a uma conta podem ser atualizadas dependendo de fatores regionais, histórico de pagamentos, uso fraudulento e/ou aprovação de uma solicitação de aumento de cota.

Você pode solicitar um aumento de cota para sua conta seguindo as etapas abaixo:

Selecione um tópico para saber mais sobre as cotas globais padrão para ele. Todas as cotas globais e regionais são iguais, a menos que especificado de outra forma.

As cotas a seguir se aplicam quando você realiza a inferência do modelo. Essas cotas consideram a soma combinada para Converse,, ConverseStreamInvokeModel, e InvokeModelWithResponseStreamsolicitações. A latência de inferência difere de acordo com o modelo e é diretamente proporcional ao número de tokens de entrada e saída e ao número total de solicitações sob demanda contínuas de todos os clientes no momento. Para garantir a taxa de transferência, recomendamos que você experimente a taxa de transferência provisionada.

Modelo Solicitações processadas por minuto Tokens processados por minuto Regiões Ajustável por meio de Service Quotas
AI21 Labs Jurassic-2 Mid 400 300,000 us-east-1 Não
AI21 Labs Jurassic-2 Ultra 100 300,000 Todos Não
AI21 Jamba-Instruct 100 300,000 Todos Não
Amazon Titan Embeddings G1 - Text 2.000 300,000 Todos Não
Amazon Titan Text Embeddings V2 2.000 300,000 Todos Não
Amazon Titan Image Generator G1 V1 60 N/D Todos Não
Amazon Titan Image Generator G1 V2 60 N/D Todos Não
Amazon Titan Multimodal Embeddings G1 2.000 300,000 Todos Não
Amazon Titan Text G1 - Express 400 300,000 Todos Não
Amazon Titan Text G1 - Lite 800 300,000 Todos Não
Amazon Titan Text Premier 100 300,000 Todos Não
Anthropic Claude Instant 1.000 1.000.000

us-east-1

us-west-2

Não
400 300,000 Outras regiões
AnthropicClaude2. x 500 500.000

us-east-1

us-west-2

Não
100 200.000 Outras regiões
Anthropic Claude 3 Sonnet 500 1.000.000

us-east-1

us-west-2

Não
100 200.000 Outras regiões
Anthropic Claude 3 Haiku 1.000 2.000.000

us-east-1

us-west-2

Não
200 200.000

ap-northeast-1

ap-southeast-1

400 300,000 Outras regiões
Anthropic Claude 3.5 Sonnet 250 2.000.000 us-west-2 Não
20 200.000

ap-northeast-1

ap-southeast-1

eu-central-1

Não
50 400.000 Outras regiões Não
Anthropic Claude 3 Opus 50 400.000 Todos Não
Cohere Command R 400 300,000 Todos Não
Cohere Command R+ 400 300,000 Todos Não
Cohere Command 400 300,000 Todos Não
Cohere Command Light 800 300,000 Todos Não
CohereEmbed(Inglês) 2.000 300,000 Todos Não
CohereEmbed(Multilíngue) 2.000 300,000 Todos Não
MetaLlama 213B 800 300,000 Todos Não
MetaLlama 270B 400 300,000 Todos Não
Meta Llama 3 8B Instruct 800 300,000 Todos Não
Meta Llama 3 70B Instruct 400 300,000 Todos Não
Meta Llama 3.1 8B Instruct 800 300,000 us-west-2 Não
Meta Llama 3.1 70B Instruct 400 300,000 us-west-2 Não
Meta Llama 3.1 405B Instruct 50 400.000 us-west-2 Não
Mistral AI Mistral 7B Instruct 800 300,000 Todos Não
Mistral AI Mixtral 8X7B Instruct 400 300,000 Todos Não
Mistral AI Mistral Large 400 300,000 Todos Não
Mistral AI Mistral Large 2 (24.07) 400 300,000 us-west-2 Não
Mistral AI Mistral Small 400 300,000 Todos Não
Stable Diffusion XL 60 N/D Todos Não

A tabela a seguir mostra o número máximo de API solicitações permitidas por segundo para diferentes API operações no Amazon Bedrock:

Atributo APIoperação Máximo de solicitações por segundo
N/D Converse 200
ConverseStream 200
DeleteModelInvocationLoggingConfiguration 1
GetFoundationModel 10
GetModelInvocationLoggingConfiguration 10
InvokeModel 200
InvokeModelWithResponseStream 200
ListFoundationModels 10
ListTagsForResource 20
PutModelInvocationLoggingConfiguration 1
TagResource 20
UntagResource 20
Atendentes AssociateAgentKnowledgeBase 6
CreateAgent 6
CreateAgentActionGroup 12
CreateAgentAlias 2
DeleteAgent 2
DeleteAgentActionGroup 2
DeleteAgentAlias 2
DeleteAgentVersion 2
DisassociateAgentKnowledgeBase 4
GetAgent 15
GetAgentActionGroup 20
GetAgentAlias 10
GetAgentKnowledgeBase 15
GetAgentVersion 10
ListAgents 10
ListAgentActionGroups 10
ListAgentAliases 10
ListAgentKnowledgeBases 10
ListAgentVersions 10
PrepareAgent 2
UpdateAgent 4
UpdateAgentActionGroup 6
UpdateAgentAlias 2
UpdateAgentKnowledgeBase 4
Modelos personalizados CreateModelCustomizationJob 1
DeleteCustomModel 10
GetCustomModel 10
GetModelCustomizationJob 10
ListModelCustomizationJobs 10
StopModelCustomizationJob 10
Proteções CreateGuardrail 1
CreateGuardrailVersion 1
DeleteGuardrail 1
GetGuardrail 10
ListGuardrails 10
UpdateGuardrail 1
Bases de conhecimento CreateDataSource 2
CreateKnowledgeBase 2
DeleteDataSource 2
DeleteKnowledgeBase 2
GetDataSource 10
GetIngestionJob 10
GetKnowledgeBase 10
ListDataSources 10
ListIngestionJobs 10
ListKnowledgeBases 10
Retrieve 5
RetrieveAndGenerate 5
StartIngestionJob 0.1
UpdateDataSource 2
UpdateKnowledgeBase 2
Avaliação de modelos CreateEvaluationJob 5
GetEvaluationJob 10
ListEvaluationJobs 10
StopEvaluationJob 5
Throughput provisionado CreateProvisionedModelThroughput 1
DeleteProvisionedModelThroughput 1
GetProvisionedModelThroughput 10
ListProvisionedModelThroughputs 10
UpdateProvisionedModelThroughput 1

Selecione uma guia para ver as cotas específicas do modelo para solicitações.

Amazon Titã Text models
Descrição Valor Ajustável por meio de Service Quotas
Tamanho do prompt de texto, em caracteres 42.000 Não
Amazon Gerador de imagens Titan G1 V1
Descrição Valor Ajustável por meio de Service Quotas
Tamanho do prompt de texto, em caracteres 1,024 Não
Tamanho da imagem de entrada 5 MB Não
Altura da imagem de entrada em pixels (pintura/pintura externa) 1,024 Não
Largura da imagem de entrada em pixels (pintura/pintura externa) 1,024 Não
Altura da imagem de entrada em pixels (variação da imagem) 4.096 Não
Largura da imagem de entrada em pixels (variação da imagem) 4.096 Não
Total de pixels da imagem de entrada 12.582.912 Não
Amazon Titan Embeddings G1 – Texto
Descrição Valor Ajustável por meio de Service Quotas
Comprimento da entrada de texto, em caracteres 50.000 Não
Amazon Titan Multimodal Embeddings G1
Descrição Valor Ajustável por meio de Service Quotas
Comprimento da entrada de texto, em caracteres 100.000 Não
Cadeia de imagem codificada em Base64, em caracteres 25.000.000 Não

As cotas a seguir se aplicam quando você realiza uma inferência em lote. As cotas dependem da modalidade dos dados de entrada e saída.

Modalidade Tamanho mínimo do arquivo Tamanho máximo do arquivo Ajustável por meio de Service Quotas
Texto para incorporações 75 MB 500 MB Não
Texto para texto 20 MB 150 MB Não
Texto/imagem para imagem 1 MB 50 MB Não

As cotas a seguir são aplicadas quando você usa grades de proteção.

Quota Descrição Valor
Guardrails por conta O número máximo de grades de proteção em uma conta. 100
Versões por corrimão O número máximo de versões que um guarda-corpo pode ter. 20
Guardrail de tópicos por tópico O número máximo de tópicos que podem ser definidos nas políticas de tópicos de proteção. 30
Frases de exemplo por tópico O número máximo de exemplos de tópicos que podem ser incluídos em um tópico. 5
Expressões regex no filtro de informações confidenciais O número máximo de regexes do filtro de proteção que podem ser incluídas em uma política de informações confidenciais 10
Comprimento do Regex em caracteres O comprimento máximo, em caracteres, de um regex de filtro de corrimão. 500
Política de palavras por palavra O número máximo de palavras que podem ser incluídas em uma lista de palavras bloqueadas. 10.000
Tamanho da palavra em caracteres O tamanho máximo de uma palavra, em caracteres, em uma lista de palavras bloqueadas. 100
ApplyGuardrail Solicitações sob demanda por segundo O número máximo de ApplyGuardrail API chamadas permitidas por segundo. 25
Unidades de texto da política de tópicos ApplyGuardrail negados sob demanda por segundo. O número máximo de unidades de texto que podem ser processadas para políticas de tópicos negados por segundo. 25
Política de filtro de ApplyGuardrail conteúdo sob demanda (unidades de texto por segundo) O número máximo de unidades de texto que podem ser processadas para políticas de filtro de conteúdo por segundo. 25
Política de filtro do ApplyGuardrail Word sob demanda (unidades de texto por segundo) O número máximo de unidades de texto que podem ser processadas para políticas de filtro do Word por segundo. 25
Informações ApplyGuardrail confidenciais sob demanda filtram unidades de texto da política por segundo O número máximo de unidades de texto que podem ser processadas para políticas de filtro de informações confidenciais por segundo. 25
nota

Uma unidade de texto pode ter até 1.000 caracteres

As cotas a seguir se aplicam às bases de conhecimento do Amazon Bedrock.

Descrição Máximo Ajustável por meio de Service Quotas Descrição
Bases de conhecimento por conta 100 Não O número máximo de bases de conhecimento por conta.
Fontes de dados por base de conhecimento 5 Não O número máximo de fontes de dados por base de conhecimento.
Tamanho do fragmento da fonte de dados (TitanTexto G1 - Incorporações) 8,192 Não O tamanho máximo (em KB) de uma fonte de dados usandoTitan Embeddings G1 - Text.
Tamanho do fragmento da fonte de dados (CohereEmbedinglês) 512 Não O tamanho máximo (em KB) de uma fonte de dados usando o Cohere Embed inglês.
Tamanho do fragmento da fonte de dados (CohereEmbedmultilíngue) 512 Não O tamanho máximo (em KB) de uma fonte de dados usando o Cohere Embed Multilingual.
Total de campos/atributos de metadados da fonte de dados por bloco. 250 Não O número máximo de campos/atributos de metadados do documento por bloco.
Total de itens de conteúdo rastreados da fonte de dados para o Web Crawler 25.000 Não O número máximo de itens de conteúdo da página da Web (máximo de 50 MB por item de conteúdo) que podem ser rastreados.
Total de arquivos rastreados da fonte de dados 2,5 milhões Não O número máximo de arquivos de fonte de dados ou itens de conteúdo (máximo de 50 MB por arquivo/item de conteúdo) que podem ser rastreados.
Análise avançada do tamanho total dos dados 100 MB Não O tamanho máximo combinado (em MB) dos dados que podem ser analisados usando análise avançada.
Análise avançada de arquivos totais 100 Não O número máximo de arquivos que podem ser analisados usando análise avançada.
Arquivos a serem adicionados ou atualizados por tarefa de ingestão 5,000,000 Não O número máximo de arquivos novos e atualizados que podem ser ingeridos por tarefa de ingestão.
Arquivos a serem excluídos por tarefa de ingestão 5,000,000 Não O número máximo de arquivos que podem ser excluídos por tarefa de ingestão.
Tamanho do arquivo do trabalho de ingestão (documento de origem) 50 MB Não O tamanho máximo (em MB) de um arquivo de documento de origem em um trabalho de ingestão.
Tamanho do arquivo do trabalho de ingestão (arquivo de metadados) 10 KB Não O tamanho máximo (em KB) de um arquivo de metadados em um trabalho de ingestão.
Tamanho do trabalho de ingestão 100 GB Não O tamanho máximo (em GB) da tarefa de ingestão.
Tarefas de ingestão simultâneas por fonte de dados 1 Não O número máximo de trabalhos de ingestão que podem ocorrer ao mesmo tempo em uma fonte de dados.
Tarefas de ingestão simultâneas por base de conhecimento 1 Não O número máximo de trabalhos de ingestão que podem ocorrer ao mesmo tempo em uma base de conhecimento.
Tarefas de ingestão simultâneas por conta 5 Não O número máximo de trabalhos de ingestão que podem ocorrer ao mesmo tempo em uma conta.
Tamanho da consulta do usuário 1.000 Não O tamanho máximo (em caracteres) de uma consulta do usuário.

As cotas a seguir se aplicam aos agentes do Amazon Bedrock.

Quota Máximo Ajustável por meio de Service Quotas Descrição
Agentes por conta 50 Sim O número máximo de agentes em uma conta.
Aliases associados por agente 10 Não O número máximo de aliases que você pode associar a um agente.
Personagens nas instruções do agente 4.000 Sim O número máximo de caracteres nas instruções de um agente.
Grupos de ação por agente 20 Sim O número máximo de grupos de ação que você pode adicionar a um agente.
Grupos de ação habilitados por agente 11 Sim O número máximo de grupos de ações que podem ser ativados em um agente.
APIsou funções por agente 11 Sim O número máximo APIs que você pode adicionar a um agente.
Parâmetros por função 5 Sim O número máximo de parâmetros que você pode adicionar a uma função para um grupo de ações.
Tamanho da carga útil da resposta Lambda 25 KB Não O tamanho máximo da carga em uma resposta Lambda do grupo de ações.
Bases de conhecimento associadas por agente 2 Sim O número máximo de bases de conhecimento que você pode associar a um agente.

As cotas a seguir se aplicam ao gerenciamento imediato.

Quota Máximo Ajustável por meio de Service Quotas Descrição
Solicitações por conta 50 Não O número máximo de solicitações no gerenciamento de solicitações que você pode ter em uma conta.
Versões por prompt 10 Não O número máximo de versões que um prompt no gerenciamento de Prompt pode ter.

As cotas a seguir se aplicam aos fluxos de Prompt.

Quota Máximo Ajustável por meio de Service Quotas Descrição
Fluxos imediatos por conta 10 Não O número máximo de fluxos de solicitação que você pode ter em uma conta.
Nódulos por fluxo imediato 20 Não O número máximo de nós que você pode ter em um fluxo imediato.
Versões por fluxo imediato 10 Não O número máximo de versões que um fluxo de prompt pode ter.
Aliases por fluxo imediato 10 Não O número máximo de aliases que você pode associar a um fluxo de prompt.
Fluxos imediatos por conta 10 Não O número máximo de fluxos de solicitação que você pode ter em uma conta.
Fluxos imediatos por conta 10 Não O número máximo de fluxos de solicitação que você pode ter em uma conta.
Nódulos de entrada de fluxo por fluxo imediato 1 Não O número máximo de nós de entrada de fluxo que você pode adicionar a um fluxo imediato.
Nódulos de saída de fluxo por fluxo imediato 5 Não O número máximo de nós de saída de fluxo que você pode adicionar a um fluxo imediato.
Condição de nós por fluxo imediato 5 Não O número máximo de nós condicionais que você pode adicionar a um fluxo de prompt.
Nódulos iteradores por fluxo imediato 1 Não O número máximo de nós iteradores que você pode adicionar a um fluxo de prompt.
Nódulos coletores por fluxo imediato 1 Não O número máximo de nós coletores que você pode adicionar a um fluxo de prompt.
Nodes de alerta por fluxo de solicitação 5 Não O número máximo de nós de prompt que você pode adicionar a um fluxo de prompt.
Nódulos Lambda por fluxo imediato 5 Não O número máximo de nós Lambda que você pode adicionar a um fluxo de prompt.
Nodos Lex por fluxo imediato 5 Não O número máximo de nós Lex que você pode adicionar a um fluxo de prompt.
Nódulos por tipo de nó por fluxo de prompt 5 Não O número máximo de nós que você pode adicionar para cada tipo em um fluxo de prompt.
Condições por nó de condição 5 Não O número máximo de condições que você pode adicionar a um nó de condição em um fluxo de prompt.

As cotas a seguir se aplicam à personalização de modelos.

Descrição Máximo Ajustável por meio de Service Quotas
O número máximo de modelos importados em uma conta. 0 Sim
O número máximo de trabalhos de personalização agendados. 2 Não
O número máximo de modelos personalizados em uma conta. 100 Sim

Para ver as cotas de hiperparâmetros, consulte. Hiperparâmetros de modelo personalizado

Selecione uma guia para ver as cotas específicas do modelo que se aplicam aos conjuntos de dados de treinamento e validação usados para personalizar diferentes modelos básicos.

Amazon Titan Text Premier
Descrição Máximo (pré-treinamento contínuo) Não disponível Somente visualização máxima (ajuste fino) Ajustável por meio de Service Quotas
Soma dos tokens de entrada e saída quando o tamanho do lote é 1 N/D 4.096 Não
Soma dos tokens de entrada e saída quando o tamanho do lote é 2, 3 ou 4 N/D N/D Não
Cota de caracteres por amostra no conjunto de dados N/D Cota de tokens x 6 Não
Soma dos registros de treinamento e validação N/D 20.000 Sim
Tamanho do arquivo do conjunto de dados de treinamento N/D 1 GB Não
Tamanho do arquivo do conjunto de dados de validação N/D 100 MB Não
Amazon Titan Text G1 – Express
Descrição Máximo (pré-treinamento contínuo) Máximo (ajuste fino) Ajustável por meio de Service Quotas
Soma dos tokens de entrada e saída quando o tamanho do lote é 1 4.096 4.096 Não
Soma dos tokens de entrada e saída quando o tamanho do lote é 2, 3 ou 4 2.048 2.048 Não
Cota de caracteres por amostra no conjunto de dados Cota de tokens x 6 Cota de tokens x 6 Não
Soma dos registros de treinamento e validação 100.000 10.000 Sim
Tamanho do arquivo do conjunto de dados de treinamento 10 GB 1 GB Não
Tamanho do arquivo do conjunto de dados de validação 100 MB 100 MB Não
Amazon Titan Text G1 – Lite
Descrição Máximo (pré-treinamento contínuo) Máximo (ajuste fino) Ajustável por meio de Service Quotas
Soma dos tokens de entrada e saída quando o tamanho do lote é 1 ou 2 4.096 4.096 Não
Soma dos tokens de entrada e saída quando o tamanho do lote é 3, 4, 5 ou 6 2.048 2.048 Não
Cota de caracteres por amostra no conjunto de dados Cota de tokens x 6 Cota de tokens x 6 Não
Soma dos registros de treinamento e validação 100.000 10.000 Sim
Tamanho do arquivo do conjunto de dados de treinamento 10 GB 1 GB Não
Tamanho do arquivo do conjunto de dados de validação 100 MB 100 MB Não
Amazon Gerador de imagens Titan G1 V1
Descrição Mínimo (ajuste fino) Máximo (ajuste fino) Ajustável por meio de Service Quotas
Tamanho do prompt de texto na amostra de treinamento, em caracteres 3 1,024 Não
Registros em um conjunto de dados de treinamento 5 10.000 Não
Tamanho da imagem de entrada 0 50 MB Não
Altura da imagem de entrada em pixels 512 4.096 Não
Largura da imagem de entrada em pixels 512 4.096 Não
Total de pixels da imagem de entrada 0 12.582.912 Não
Proporção da imagem de entrada 1:4 4:1 Não
Soma dos registros de treinamento e validação N/D 10.000 Sim
Amazon Titan Multimodal Embeddings G1
Descrição Mínimo (ajuste fino) Máximo (ajuste fino) Ajustável por meio de Service Quotas
Tamanho do prompt de texto na amostra de treinamento, em caracteres 0 2.560 Não
Registros em um conjunto de dados de treinamento 1.000 500.000 Não
Tamanho da imagem de entrada 0 5 MB Não
Altura da imagem de entrada em pixels 128 4096 Não
Largura da imagem de entrada em pixels 128 4096 Não
Total de pixels da imagem de entrada 0 12.528.912 Não
Proporção da imagem de entrada 1:4 4:1 Não
Soma dos registros de treinamento e validação N/D 50.000 Sim
Cohere Comando
Descrição Máximo (ajuste fino) Ajustável por meio de Service Quotas
Tokens de entrada 4.096 Não
Tokens de saída 2.048 Não
Cota de caracteres por amostra no conjunto de dados Cota de tokens x 6 Não
Registros em um conjunto de dados de treinamento 10.000 Não
Registros em um conjunto de dados de validação 1.000 Não
Meta Lhama 2
Descrição Máximo (ajuste fino) Ajustável por meio de Service Quotas
Tokens de entrada 4.096 Não
Tokens de saída 2.048 Não
Cota de caracteres por amostra no conjunto de dados Cota de tokens x 6 Não
Soma dos registros de treinamento e validação 10.000 Sim

As cotas a seguir se aplicam ao throughput provisionado.

nota

Se uma cota for marcada como não ajustável por meio de Cotas de Serviço, você poderá enviar uma solicitação por meio do formulário de aumento de limite para ser considerado para um aumento.

Descrição Padrão Ajustável por meio de Service Quotas
Unidades de modelo que podem ser distribuídas em taxas de transferência provisionadas sem compromisso 2 Não
Unidades de modelo que podem ser distribuídas entre taxas de transferência provisionadas com comprometimento 0 Não

As cotas a seguir se aplicam a trabalhos de avaliação de modelos,

Tipo de trabalho Descrição Padrão Ajustável

Automatizada

O número máximo de conjuntos de dados que você pode especificar em um trabalho automatizado de avaliação de modelo. Isso inclui conjuntos de dados de prompt personalizados e integrados.

5 Não

Automatizada

O número máximo de métricas que você pode especificar por conjunto de dados em um trabalho automatizado de avaliação de modelo. Isso inclui métricas personalizadas e incorporadas.

3 Não
Humano

O número máximo de métricas personalizadas que você pode especificar em um trabalho de avaliação de modelo que usa trabalhadores humanos.

10 Não

Automatizada

O número máximo de modelos que você pode especificar em um trabalho automatizado de avaliação de modelos.

1 Não
Humano

O número máximo de modelos que você pode especificar em um trabalho de avaliação de modelo que usa trabalhadores humanos.

2 Não
Automatizada

O número máximo de trabalhos de avaliação automática de modelos que você pode especificar ao mesmo tempo nessa conta na região atual.

20 Não
Humano

O número máximo de trabalhos de avaliação de modelo que usam trabalhadores humanos que você pode especificar ao mesmo tempo nessa conta na região atual.

10 Não
Ambos

O número máximo de trabalhos de avaliação de modelo que você pode criar nessa conta na região atual.

500 Não
Humano

O número máximo de conjuntos de dados de solicitações personalizadas que você pode especificar em um trabalho de avaliação de modelo baseado em humanos nessa conta na região atual.

1 Não
Ambos

O número máximo de solicitações que um conjunto de dados de solicitações personalizadas pode conter.

1.000 Não
Ambos

O tamanho máximo (em KB) de um prompt individual é um conjunto de dados de prompt personalizado.

4 KB Não
Humano

A duração máxima (em dias) que um trabalhador pode ter para concluir tarefas.

30 Não