Puntos de conexión del servicio de Amazon Bedrock Cuotas de servicio de Amazon Bedrock

Puntos de conexión y cuotas de Amazon Bedrock

Para conectarse mediante programación a un AWS servicio, se utiliza un punto final. AWS los servicios ofrecen los siguientes tipos de terminales en algunas o todas las AWS regiones compatibles con el servicio: terminales IPv4, terminales de doble pila y terminales FIPS. Algunos servicios proporcionan puntos de conexión globales. Para obtener más información, consulte AWS puntos de conexión de servicio.

Las cuotas de servicio, también denominadas límites, son la cantidad máxima de recursos u operaciones de servicio para su cuenta. AWS Para obtener más información, consulte AWS cuotas de servicio.

En las páginas siguientes se describen los puntos de conexión y las cuotas de servicio para este servicio.

Puntos de conexión del servicio de Amazon Bedrock

Acciones de la API del plano de control de Amazon Bedrock

La siguiente tabla proporciona una lista de los Region-specific puntos de enlace que Amazon Bedrock admite para la administración, el entrenamiento y la implementación de modelos. Utilice estos puntos de conexión para las operaciones de la API de Amazon Bedrock.

Nombre de la región	Región	Punto de conexión	Protocolo
Este de EE. UU. (Ohio)	us-east-2	bedrock.us-east-2.amazonaws.com bedrock-fips.us-east-2.amazonaws.com	HTTPS HTTPS
Este de EE. UU. (Norte de Virginia)	us-east-1	bedrock.us-east-1.amazonaws.com bedrock-fips.us-east-1.amazonaws.com	HTTPS HTTPS
Oeste de EE. UU. (Norte de California)	us-west-1	bedrock.us-west-1.amazonaws.com bedrock-fips.us-west-1.amazonaws.com	HTTPS HTTPS
Oeste de EE. UU. (Oregón)	us-west-2	bedrock.us-west-2.amazonaws.com bedrock-fips.us-west-2.amazonaws.com	HTTPS HTTPS
África (Ciudad del Cabo)	af-south-1	bedrock.af-south-1.amazonaws.com	HTTPS
Asia-Pacífico (Hyderabad)	ap-south-2	bedrock.ap-south-2.amazonaws.com	HTTPS
Asia-Pacífico (Yakarta)	ap-southeast-3	bedrock.ap-southeast-3.amazonaws.com	HTTPS
Asia-Pacífico (Malasia)	ap-southeast-5	bedrock.ap-southeast-5.amazonaws.com	HTTPS
Asia-Pacífico (Melbourne)	ap-southeast-4	bedrock.ap-southeast-4.amazonaws.com	HTTPS
Asia-Pacífico (Mumbai)	ap-south-1	bedrock.ap-south-1.amazonaws.com	HTTPS
Asia-Pacífico (Nueva Zelanda)	ap-southeast-6	bedrock.ap-southeast-6.amazonaws.com	HTTPS
Asia-Pacífico (Osaka)	ap-northeast-3	bedrock.ap-northeast-3.amazonaws.com	HTTPS
Asia-Pacífico (Seúl)	ap-northeast-2	bedrock.ap-northeast-2.amazonaws.com	HTTPS
Asia-Pacífico (Singapur)	ap-southeast-1	bedrock.ap-southeast-1.amazonaws.com	HTTPS
Asia-Pacífico (Sídney)	ap-southeast-2	bedrock.ap-southeast-2.amazonaws.com	HTTPS
Asia-Pacífico (Taipéi)	ap-east-2	bedrock.ap-east-2.amazonaws.com	HTTPS
Asia-Pacífico (Tailandia)	ap-southeast-7	bedrock.ap-southeast-7.amazonaws.com	HTTPS
Asia-Pacífico (Tokio)	ap-northeast-1	bedrock.ap-northeast-1.amazonaws.com	HTTPS
Canadá (centro)	ca-central-1	bedrock.ca-central-1.amazonaws.com bedrock-fips.ca-central-1.amazonaws.com	HTTPS HTTPS
Oeste de Canadá (Calgary)	ca-west-1	bedrock.ca-west-1.amazonaws.com bedrock-fips.ca-west-1.amazonaws.com	HTTPS HTTPS
Europa (Fráncfort)	eu-central-1	bedrock.eu-central-1.amazonaws.com	HTTPS
Europa (Irlanda)	eu-west-1	bedrock.eu-west-1.amazonaws.com	HTTPS
Europa (Londres)	eu-west-2	bedrock.eu-west-2.amazonaws.com	HTTPS
Europa (Milán)	eu-south-1	bedrock.eu-south-1.amazonaws.com	HTTPS
Europa (París)	eu-west-3	bedrock.eu-west-3.amazonaws.com	HTTPS
Europa (España)	eu-south-2	bedrock.eu-south-2.amazonaws.com	HTTPS
Europa (Estocolmo)	eu-north-1	bedrock.eu-north-1.amazonaws.com	HTTPS
Europa (Zúrich)	eu-central-2	bedrock.eu-central-2.amazonaws.com	HTTPS
Israel (Tel Aviv)	il-central-1	bedrock.il-central-1.amazonaws.com	HTTPS
México (centro)	mx-central-1	bedrock.mx-central-1.amazonaws.com	HTTPS
Medio Oriente (Baréin)	me-south-1	bedrock.me-south-1.amazonaws.com	HTTPS
Medio Oriente (EAU)	me-central-1	bedrock.me-central-1.amazonaws.com	HTTPS
América del Sur (São Paulo)	sa-east-1	bedrock.sa-east-1.amazonaws.com	HTTPS
AWS GovCloud (US-East)	us-gov-east-1	bedrock.us-gov-east-1.amazonaws.com bedrock-fips.us-gov-east-1.amazonaws.com	HTTPS HTTPS
AWS GovCloud (US-West)	us-gov-west-1	bedrock.us-gov-west-1.amazonaws.com bedrock-fips.us-gov-west-1.amazonaws.com	HTTPS HTTPS

API de tiempo de ejecución para Amazon Bedrock

La siguiente tabla proporciona una lista de Region-specific puntos de enlace que Amazon Bedrock admite para realizar solicitudes de inferencia para modelos alojados en Amazon Bedrock. Utilice estos puntos de conexión para las operaciones de tiempo de ejecución de la API de Amazon Bedrock.

Nombre de la región	Región	Punto de conexión	Protocolo
Este de EE. UU. (Ohio)	us-east-2	bedrock-runtime.us-east-2.amazonaws.com bedrock-runtime-fips.us-east-2.amazonaws.com	HTTPS HTTPS
Este de EE. UU. (Norte de Virginia)	us-east-1	bedrock-runtime.us-east-1.amazonaws.com bedrock-runtime-fips.us-east-1.amazonaws.com	HTTPS HTTPS
Oeste de EE. UU. (Oregón)	us-west-2	bedrock-runtime.us-west-2.amazonaws.com bedrock-runtime-fips.us-west-2.amazonaws.com	HTTPS HTTPS
Asia-Pacífico (Hyderabad)	ap-south-2	bedrock-runtime.ap-south-2.amazonaws.com	HTTPS
Asia-Pacífico (Mumbai)	ap-south-1	bedrock-runtime.ap-south-1.amazonaws.com	HTTPS
Asia-Pacífico (Osaka)	ap-northeast-3	bedrock-runtime.ap-northeast-3.amazonaws.com	HTTPS
Asia-Pacífico (Seúl)	ap-northeast-2	bedrock-runtime.ap-northeast-2.amazonaws.com	HTTPS
Asia-Pacífico (Singapur)	ap-southeast-1	bedrock-runtime.ap-southeast-1.amazonaws.com	HTTPS
Asia-Pacífico (Sídney)	ap-southeast-2	bedrock-runtime.ap-southeast-2.amazonaws.com	HTTPS
Asia-Pacífico (Tokio)	ap-northeast-1	bedrock-runtime.ap-northeast-1.amazonaws.com	HTTPS
Canadá (centro)	ca-central-1	bedrock-runtime.ca-central-1.amazonaws.com bedrock-runtime-fips.ca-central-1.amazonaws.com	HTTPS HTTPS
Europa (Fráncfort)	eu-central-1	bedrock-runtime.eu-central-1.amazonaws.com	HTTPS
Europa (Irlanda)	eu-west-1	bedrock-runtime.eu-west-1.amazonaws.com	HTTPS
Europa (Londres)	eu-west-2	bedrock-runtime.eu-west-2.amazonaws.com	HTTPS
Europa (Milán)	eu-south-1	bedrock-runtime.eu-south-1.amazonaws.com	HTTPS
Europa (París)	eu-west-3	bedrock-runtime.eu-west-3.amazonaws.com	HTTPS
Europa (España)	eu-south-2	bedrock-runtime.eu-south-2.amazonaws.com	HTTPS
Europa (Estocolmo)	eu-north-1	bedrock-runtime.eu-north-1.amazonaws.com	HTTPS
Europa (Zúrich)	eu-central-2	bedrock-runtime.eu-central-2.amazonaws.com	HTTPS
América del Sur (São Paulo)	sa-east-1	bedrock-runtime.sa-east-1.amazonaws.com	HTTPS
AWS GovCloud (US-East)	us-gov-east-1	bedrock-runtime.us-gov-east-1.amazonaws.com bedrock-runtime-fips.us-gov-east-1.amazonaws.com	HTTPS HTTPS
AWS GovCloud (US-West)	us-gov-west-1	bedrock-runtime.us-gov-west-1.amazonaws.com bedrock-runtime-fips.us-gov-west-1.amazonaws.com	HTTPS HTTPS

API de tiempo de compilación de Agentes para Amazon Bedrock

La siguiente tabla proporciona una lista de Region-specific puntos de enlace que Agents for Amazon Bedrock admite para crear y administrar agentes y bases de conocimiento. Utilice estos puntos de conexión para las operaciones de la API de Agentes para Amazon Bedrock.

Nombre de la región	Región	Punto de conexión	Protocolo
Este de EE. UU. (Norte de Virginia)	us-east-1	bedrock-agent.us-east-1.amazonaws.com	HTTPS
Este de EE. UU. (Norte de Virginia)	us-east-1	bedrock-agent-fips.us-east-1.amazonaws.com	HTTPS
Oeste de EE. UU. (Oregón)	us-west-2	bedrock-agent.us-west-2.amazonaws.com	HTTPS
Oeste de EE. UU. (Oregón)	us-west-2	bedrock-agent-fips.us-west-2.amazonaws.com	HTTPS
Asia-Pacífico (Singapur)	ap-southeast-1	bedrock-agent.ap-southeast-1.amazonaws.com	HTTPS
Asia-Pacífico (Sídney)	ap-southeast-2	bedrock-agent.ap-southeast-2.amazonaws.com	HTTPS
Asia-Pacífico (Tokio)	ap-northeast-1	bedrock-agent.ap-northeast-1.amazonaws.com	HTTPS
Asia-Pacífico (Seúl)	ap-northeast-2	bedrock-agent.ap-northeast-2.amazonaws.com	HTTPS
Canadá (centro)	ca-central-1	bedrock-agent.ca-central-1.amazonaws.com	HTTPS
Europa (Fráncfort)	eu-central-1	bedrock-runtime.eu-central-1.amazonaws.com	HTTPS
Europa (Irlanda)	eu-west-1	bedrock-agent.eu-west-1.amazonaws.com	HTTPS
Europa (Londres)	eu-west-2	bedrock-agent.eu-west-2.amazonaws.com	HTTPS
Europa (París)	eu-west-3	bedrock-agent.eu-west-3.amazonaws.com	HTTPS
Asia-Pacífico (Mumbai)	ap-south-1	bedrock-agent.ap-south-1.amazonaws.com	HTTPS
América del Sur (São Paulo)	sa-east-1	bedrock-agent.sa-east-1.amazonaws.com	HTTPS

API de tiempo de ejecución de Agentes para Amazon Bedrock

La siguiente tabla proporciona una lista de Region-specific puntos de enlace que Agents for Amazon Bedrock admite para invocar agentes y consultar bases de conocimiento. Utilice estos puntos de conexión para las operaciones de tiempo de ejecución de la API de Agentes para Amazon Bedrock.

Nombre de la región	Región	Punto de conexión	Protocolo
Este de EE. UU. (Norte de Virginia)	us-east-1	bedrock-agent-runtime.us-east-1.amazonaws.com	HTTPS
Este de EE. UU. (Norte de Virginia)	us-east-1	bedrock-agent-runtime-fips.us-east-1.amazonaws.com	HTTPS
Oeste de EE. UU. (Oregón)	us-west-2	bedrock-agent-runtime.us-west-2.amazonaws.com	HTTPS
Oeste de EE. UU. (Oregón)	us-west-2	bedrock-agent-runtime-fips.us-west-2.amazonaws.com	HTTPS
Asia-Pacífico (Singapur)	ap-southeast-1	bedrock-agent-runtime.ap-southeast-1.amazonaws.com	HTTPS
Asia-Pacífico (Sídney)	ap-southeast-2	bedrock-agent-runtime.ap-southeast-2.amazonaws.com	HTTPS
Asia-Pacífico (Tokio)	ap-northeast-1	bedrock-agent-runtime.ap-northeast-1.amazonaws.com	HTTPS
Asia-Pacífico (Seúl)	ap-northeast-2	bedrock-agent-runtime.ap-northeast-2.amazonaws.com	HTTPS
Canadá (centro)	ca-central-1	bedrock-agent-runtime.ca-central-1.amazonaws.com	HTTPS
Europa (Fráncfort)	eu-central-1	bedrock-agent-runtime.eu-central-1.amazonaws.com	HTTPS
Europa (París)	eu-west-3	bedrock-agent-runtime.eu-west-3.amazonaws.com	HTTPS
Europa (Irlanda)	eu-west-1	bedrock-agent-runtime.eu-west-1.amazonaws.com	HTTPS
Europa (Londres)	eu-west-2	bedrock-agent-runtime.eu-west-2.amazonaws.com	HTTPS
Asia-Pacífico (Mumbai)	ap-south-1	bedrock-agent-runtime.ap-south-1.amazonaws.com	HTTPS
América del Sur (São Paulo)	sa-east-1	bedrock-agent-runtime.sa-east-1.amazonaws.com	HTTPS

API de automatización de datos de Amazon Bedrock

En la siguiente tabla se proporciona una lista de los Region-specific puntos de enlace compatibles con Data Automation for Amazon Bedrock. Los puntos finales que utilizan la palabra runtime invocan planos y proyectos para extraer información de los archivos. Utilice estos puntos de conexión para las operaciones de tiempo de ejecución de la API de Automatización de Datos de Amazon Bedrock. Los puntos de conexión sin runtime se utilizan para crear esquemas y proyectos que sirvan de guía para la extracción. Utilice estos puntos de conexión para las operaciones de compilación de la API de Automatización de Datos de Amazon Bedrock.

Nombre de la región	Región	Punto de conexión	Protocolo
Este de EE. UU. (Ohio)	us-east-2	bedrock-data-automation.us-east-2.amazonaws.com bedrock-data-automation-runtime.us-east-2.amazonaws.com bedrock-data-automation-fips.us-east-2.amazonaws.com bedrock-data-automation-runtime-fips.us-east-2.amazonaws.com	HTTPS HTTPS HTTPS HTTPS
Este de EE. UU. (Norte de Virginia)	us-east-1	bedrock-data-automation.us-east-1.amazonaws.com bedrock-data-automation-runtime.us-east-1.api.aws bedrock-data-automation-runtime.us-east-1.amazonaws.com bedrock-data-automation.us-east-1.api.aws bedrock-data-automation-fips.us-east-1.amazonaws.com bedrock-data-automation-runtime-fips.us-east-1.api.aws bedrock-data-automation-runtime-fips.us-east-1.amazonaws.com bedrock-data-automation-fips.us-east-1.api.aws	HTTPS HTTPS HTTPS HTTPS HTTPS HTTPS HTTPS HTTPS
Oeste de EE. UU. (Oregón)	us-west-2	bedrock-data-automation.us-west-2.amazonaws.com bedrock-data-automation-runtime.us-west-2.api.aws bedrock-data-automation-runtime.us-west-2.amazonaws.com bedrock-data-automation.us-west-2.api.aws bedrock-data-automation-fips.us-west-2.amazonaws.com bedrock-data-automation-runtime-fips.us-west-2.api.aws bedrock-data-automation-runtime-fips.us-west-2.amazonaws.com bedrock-data-automation-fips.us-west-2.api.aws	HTTPS HTTPS HTTPS HTTPS HTTPS HTTPS HTTPS HTTPS
Asia-Pacífico (Mumbai)	ap-south-1	bedrock-data-automation.ap-south-1.amazonaws.com bedrock-data-automation-runtime.ap-south-1.amazonaws.com	HTTPS HTTPS
Asia-Pacífico (Sídney)	ap-southeast-2	bedrock-data-automation.ap-southeast-2.amazonaws.com bedrock-data-automation-runtime.ap-southeast-2.amazonaws.com	HTTPS HTTPS
Asia-Pacífico (Tokio)	ap-northeast-1	bedrock-data-automation.ap-northeast-1.amazonaws.com bedrock-data-automation-runtime.ap-northeast-1.amazonaws.com	HTTPS HTTPS
Canadá (centro)	ca-central-1	bedrock-data-automation.ca-central-1.amazonaws.com bedrock-data-automation-runtime.ca-central-1.amazonaws.com bedrock-data-automation-fips.ca-central-1.amazonaws.com bedrock-data-automation-runtime-fips.ca-central-1.amazonaws.com	HTTPS HTTPS HTTPS HTTPS
Europa (Fráncfort)	eu-central-1	bedrock-data-automation.eu-central-1.amazonaws.com bedrock-data-automation-runtime.eu-central-1.amazonaws.com	HTTPS HTTPS
Europa (Irlanda)	eu-west-1	bedrock-data-automation.eu-west-1.amazonaws.com bedrock-data-automation-runtime.eu-west-1.amazonaws.com	HTTPS HTTPS
Europa (Londres)	eu-west-2	bedrock-data-automation.eu-west-2.amazonaws.com bedrock-data-automation-runtime.eu-west-2.amazonaws.com	HTTPS HTTPS
Europa (España)	eu-south-2	bedrock-data-automation.eu-south-2.amazonaws.com bedrock-data-automation-runtime.eu-south-2.amazonaws.com	HTTPS HTTPS
AWS GovCloud (US-West)	us-gov-west-1	bedrock-data-automation.us-gov-west-1.amazonaws.com bedrock-data-automation-runtime.us-gov-west-1.amazonaws.com bedrock-data-automation-fips.us-gov-west-1.amazonaws.com bedrock-data-automation-runtime-fips.us-gov-west-1.amazonaws.com	HTTPS HTTPS HTTPS HTTPS

Cuotas de servicio de Amazon Bedrock

sugerencia

Dado que Amazon Bedrock tiene un gran número de cuotas, le recomendamos que consulte las cuotas de servicio mediante la consola en lugar de utilizar la tabla siguiente. Abre las cuotas de Amazon Bedrock. Para buscar consultas específicas, utilice el cuadro de búsqueda. Usa el icono con forma de engranaje para controlar el número de cuotas que se muestran en una página.

Name	Predeterminado	Ajustable	Description (Descripción)
(Optimización de peticiones avanzadas) Trabajos activos por cuenta	Cada región admitida: 20	Sí	Número máximo de trabajos de optimización de peticiones avanzadas (APO) activos por cuenta.
(Optimización de peticiones avanzadas) Trabajos inactivos por cuenta	Cada región admitida: 5000	Sí	Número máximo de trabajos de optimización de peticiones avanzadas (APO) inactivos por cuenta.
(Razonamiento automatizado) Anotaciones en la política	Cada región admitida: 10	No	El número máximo de anotaciones en una política de razonamiento automatizado.
(Razonamiento automatizado) CancelAutomatedReasoningPolicyBuildWorkflow solicitudes por segundo	Cada región admitida: 5	Sí	El número máximo de solicitudes de CancelAutomatedReasoningPolicyBuildWorkflow API por segundo.
(Razonamiento automatizado) Compilaciones simultáneas por política	Cada región admitida: 2	No	El número máximo de versiones simultáneas por política de razonamiento automatizado.
(Razonamiento automatizado) Compilaciones simultáneas de política por cuenta	Cada región admitida: 5	No	El número máximo de políticas de razonamiento automatizado simultáneas en una cuenta.
(Razonamiento automatizado) CreateAutomatedReasoningPolicy solicitudes por segundo	Cada región admitida: 5	Sí	El número máximo de solicitudes de CreateAutomatedReasoningPolicy API por segundo.
(Razonamiento automatizado) CreateAutomatedReasoningPolicyTestCase solicitudes por segundo	Cada región admitida: 5	Sí	El número máximo de solicitudes de CreateAutomatedReasoningPolicyTestCase API por segundo.
(Razonamiento automatizado) CreateAutomatedReasoningPolicyVersion solicitudes por segundo	Cada región admitida: 5	Sí	El número máximo de solicitudes de CreateAutomatedReasoningPolicyVersion API por segundo.
(Razonamiento automatizado) DeleteAutomatedReasoningPolicy solicitudes por segundo	Cada región admitida: 5	Sí	El número máximo de solicitudes de DeleteAutomatedReasoningPolicy API por segundo.
(Razonamiento automatizado) DeleteAutomatedReasoningPolicyBuildWorkflow solicitudes por segundo	Cada región admitida: 5	Sí	El número máximo de solicitudes de DeleteAutomatedReasoningPolicyBuildWorkflow API por segundo.
(Razonamiento automatizado) DeleteAutomatedReasoningPolicyTestCase solicitudes por segundo	Cada región admitida: 5	Sí	El número máximo de solicitudes de DeleteAutomatedReasoningPolicyTestCase API por segundo.
(Razonamiento automatizado) ExportAutomatedReasoningPolicyVersion solicitudes por segundo	Cada región admitida: 5	Sí	El número máximo de solicitudes de ExportAutomatedReasoningPolicyVersion API por segundo.
(Razonamiento automatizado) GetAutomatedReasoningPolicy solicitudes por segundo	Cada región admitida: 10	Sí	El número máximo de solicitudes de GetAutomatedReasoningPolicy API por segundo.
(Razonamiento automatizado) GetAutomatedReasoningPolicyAnnotations solicitudes por segundo	Cada región admitida: 10	Sí	El número máximo de solicitudes de GetAutomatedReasoningPolicyAnnotations API por segundo.
(Razonamiento automatizado) GetAutomatedReasoningPolicyBuildWorkflow solicitudes por segundo	Cada región admitida: 10	Sí	El número máximo de solicitudes de GetAutomatedReasoningPolicyBuildWorkflow API por segundo.
(Razonamiento automatizado) GetAutomatedReasoningPolicyBuildWorkflowResultAssets solicitudes por segundo	Cada región admitida: 10	Sí	El número máximo de solicitudes de GetAutomatedReasoningPolicyBuildWorkflowResultAssets API por segundo.
(Razonamiento automatizado) GetAutomatedReasoningPolicyNextScenario solicitudes por segundo	Cada región admitida: 10	Sí	El número máximo de solicitudes de GetAutomatedReasoningPolicyNextScenario API por segundo.
(Razonamiento automatizado) GetAutomatedReasoningPolicyTestCase solicitudes por segundo	Cada región admitida: 10	Sí	El número máximo de solicitudes de GetAutomatedReasoningPolicyTestCase API por segundo.
(Razonamiento automatizado) GetAutomatedReasoningPolicyTestResult solicitudes por segundo	Cada región admitida: 10	Sí	El número máximo de solicitudes de GetAutomatedReasoningPolicyTestResult API por segundo.
(Razonamiento automatizado) ListAutomatedReasoningPolicies solicitudes por segundo	Cada región admitida: 5	Sí	El número máximo de solicitudes de ListAutomatedReasoningPolicies API por segundo.
(Razonamiento automatizado) ListAutomatedReasoningPolicyBuildWorkflows solicitudes por segundo	Cada región admitida: 5	Sí	El número máximo de solicitudes de ListAutomatedReasoningPolicyBuildWorkflows API por segundo.
(Razonamiento automatizado) ListAutomatedReasoningPolicyTestCases solicitudes por segundo	Cada región admitida: 5	Sí	El número máximo de solicitudes de ListAutomatedReasoningPolicyTestCases API por segundo.
(Razonamiento automatizado) ListAutomatedReasoningPolicyTestResults solicitudes por segundo	Cada región admitida: 5	Sí	El número máximo de solicitudes de ListAutomatedReasoningPolicyTestResults API por segundo.
(Razonamiento automatizado) Políticas por segundo	Cada región admitida: 100	No	El número máximo de políticas de razonamiento automatizado en una cuenta.
(Razonamiento automatizado) Reglas en la política	Cada región admitida: 500	No	El número máximo de reglas en una política de razonamiento automatizado.
(Razonamiento automatizado) Tamaño del documento origen (MB)	Cada región admitida: 5	No	El tamaño máximo del documento fuente (MB) para crear una política de razonamiento automatizado.
(Razonamiento automatizado) Tokens del documento origen	Cada región admitida: 122 880	No	El número máximo de símbolos permitido en un documento fuente al crear una política de razonamiento automatizado.
(Razonamiento automatizado) StartAutomatedReasoningPolicyBuildWorkflow solicitudes por segundo	Cada región admitida: 1	Sí	El número máximo de solicitudes de StartAutomatedReasoningPolicyBuildWorkflow API por segundo.
(Razonamiento automatizado) StartAutomatedReasoningPolicyTestWorkflow solicitudes por segundo	Cada región admitida: 1	Sí	El número máximo de solicitudes de StartAutomatedReasoningPolicyTestWorkflow API por segundo.
(Razonamiento automatizado) Pruebas por política	Cada región admitida: 100	No	El número máximo de pruebas por política de razonamiento automatizado.
(Razonamiento automatizado) Tipos por política	Cada región admitida: 50	No	El número máximo de tipos en una política de razonamiento automatizado.
(Razonamiento automatizado) UpdateAutomatedReasoningPolicy solicitudes por segundo	Cada región admitida: 5	Sí	El número máximo de solicitudes de UpdateAutomatedReasoningPolicy API por segundo.
(Razonamiento automatizado) UpdateAutomatedReasoningPolicyAnnotations solicitudes por segundo	Cada región admitida: 5	Sí	El número máximo de solicitudes de UpdateAutomatedReasoningPolicyAnnotations API por segundo.
(Razonamiento automatizado) UpdateAutomatedReasoningPolicyTestCase solicitudes por segundo	Cada región admitida: 5	Sí	El número máximo de solicitudes de UpdateAutomatedReasoningPolicyTestCase API por segundo.
(Razonamiento automatizado) Valores por tipo en la política	Cada región admitida: 50	No	El número máximo de valores por tipo en una política de razonamiento automatizado.
(Razonamiento automatizado) Variables en la política	Cada región admitida: 200	No	El número máximo de variables en una política de razonamiento automatizado.
(Razonamiento automatizado) Versiones por política	Cada región admitida: 1000	No	El número máximo de versiones por política de razonamiento automatizado.
(Automatización de datos) (Consola) Tamaño máximo del archivo del documento (MB)	Cada región admitida: 200	No	El tamaño de archivo máximo para la consola
(Automatización de datos) (Consola) Número máximo de páginas por archivo de documento	Cada región admitida: 20	No	Número máximo de páginas por documento en la consola
(Automatización de datos) CreateBlueprint : número máximo de planos por cuenta	Cada región admitida: 350	Sí	Número máximo de etiquetas lf por cuenta.
(Automatización de datos) CreateBlueprintVersion : número máximo de versiones de blueprint por blueprint	Cada región admitida: 10	Sí	El número máximo de versiones por esquema
(Automatización de datos) CreateDataAutomationLibrary : número máximo de bibliotecas de automatización de datos por cuenta	Cada región admitida: 10	Sí	El número máximo de bibliotecas de automatización de datos por cuenta
(Automatización de datos) Longitud de la descripción de los campos (caracteres)	Cada región admitida: 300	No	La longitud máxima de la descripción de los campos en caracteres.
(Automatización de datos) InvokeBlueprintOptimizationAsync : número máximo de trabajos simultáneos de optimización de planos	Cada región admitida: 3	Sí	El número máximo de trabajos abiertos de Invoke Blueprint Optimization Async
(Automatización de datos) InvokeBlueprintOptimizationAsync : número máximo de trabajos de optimización de planos por día	Cada región admitida: 30	No	El número máximo de trabajos asíncronos de Invoke Blueprint Optimization por día
(Automatización de datos) InvokeDataAutomation (Sincronización) - Documento: número máximo de solicitudes	Cada región admitida: 60	Sí	El número máximo de InvokeDataAutomation solicitudes por minuto para la modalidad de documento
(Automatización de datos) InvokeDataAutomation (Sincronización) - Imagen: número máximo de solicitudes	us-east-1: 200 us-west-2: 200 Cada una de las demás regiones compatibles: 100	Sí	El número máximo de InvokeDataAutomation solicitudes por minuto para la modalidad de imagen
(Automatización de datos) InvokeDataAutomationAsync - Audio: número máximo de trabajos simultáneos	us-east-1: 20 us-west-2: 20 Cada una de las demás regiones compatibles: 2	Sí	Número máximo de trabajos abiertos de Invoke Data Automation Async para audios
(Automatización de datos) InvokeDataAutomationAsync - Documento: número máximo de trabajos simultáneos	ap-south-1: 5 ca-central-1: 5 eu-south-2:5 eu-west-2: 5 Cada una de las demás regiones compatibles: 25	Sí	El número máximo de trabajos abiertos de Invoke Data Automation Async para documentos
(Automatización de datos) InvokeDataAutomationAsync - Imagen: número máximo de trabajos simultáneos	us-east-1: 20 us-west-2: 20 Cada una de las demás regiones compatibles: 5	Sí	El número máximo de trabajos abiertos de Invoke Data Automation Async para imágenes
(Automatización de datos) InvokeDataAutomationAsync : número máximo de puestos vacantes	Cada región admitida: 1800	No	El número máximo de trabajos abiertos de Invoke Data Automation Async para imágenes
(Automatización de datos) InvokeDataAutomationAsync - Vídeo: número máximo de trabajos simultáneos	us-east-1: 20 us-west-2: 20 Cada una de las demás regiones compatibles: 3	Sí	Número máximo de trabajos abiertos de Invoke Data Automation Async para vídeos
(Automatización de datos) Número máximo de frases de vocabulario por biblioteca	Cada región admitida: 500	Sí	El número máximo de frases de vocabulario personalizadas que se pueden configurar por biblioteca
(Automatización de datos) Frecuencia máxima de muestreo de audio (Hz)	Cada región admitida: 48 000	No	La frecuencia de muestreo de audio máxima
(Automatización de datos) Número máximo de planos por proyecto (audios)	Cada región admitida: 1	No	Número máximo de planos por proyecto para audios
(Automatización de datos) Número máximo de planos por proyecto (documentos)	Cada región admitida: 40	No	Número máximo de planos por proyecto para documentos
(Automatización de datos) Número máximo de planos por proyecto (imágenes)	Cada región admitida: 1	No	Número máximo de planos por proyecto para imágenes
(Automatización de datos) Número máximo de planos por proyecto (vídeos)	Cada región admitida: 1	No	Número máximo de planos por proyecto para vídeos
(Automatización de datos) Tamaño máximo del esquema JSON (caracteres)	Cada región admitida: 100 000	No	El tamaño máximo de JSON en caracteres
(Automatización de datos) Niveles máximos de jerarquía de campos	Cada región admitida: 1	No	El nivel numérico máximo de la jerarquía de campos
(Automatización de datos) Número máximo de páginas por documento	Cada región admitida: 3000	No	Número máximo de piezas de documentación por API
(Automatización de datos) Resolución máxima	Cada región admitida: 8 000	No	La resolución máxima de las imágenes
(Automatización de datos) Tamaño máximo del archivo de audio (MB)	Cada región admitida: 2048	No	El tamaño de archivo máximo para el audio
(Automatización de datos) Duración máxima de audio (minutos)	Cada región compatible: 240	No	La duración máxima del audio en minutos
(Automatización de datos) Tamaño máximo del archivo del documento (MB)	Cada región admitida: 500	No	El tamaño de archivo máximo (en MB).
(Automatización de datos) Tamaño máximo del archivo de imagen (MB)	Cada región admitida: 5	No	El tamaño de archivo máximo para las imágenes
(Automatización de datos) Longitud máxima del campo de instrucción para Audio Blueprint: (caracteres)	Cada región admitida: 500	Sí	La longitud máxima del campo de instrucciones para el esquema de audio en caracteres
(Automatización de datos) Número máximo de planos por solicitud de inicio de inferencia (audios)	Cada región admitida: 1	No	El número máximo de esquemas en línea en la solicitud de inferencia de Start
(Automatización de datos) Número máximo de planos por solicitud de inicio de inferencia (documentos)	Cada región admitida: 10	No	El número máximo de esquemas en línea en la solicitud de inferencia de Start
(Automatización de datos) Número máximo de planos por solicitud de inicio de inferencia (imágenes)	Cada región admitida: 1	No	El número máximo de esquemas en línea en la solicitud de inferencia de Start
(Automatización de datos) Número máximo de planos por solicitud de inicio de inferencia (vídeos)	Cada región admitida: 1	No	El número máximo de esquemas en línea en la solicitud de inferencia de Start
(Automatización de datos) Número máximo de campos de lista por plano	Cada región admitida: 15	No	Número máximo de etiquetas de lista por esquema
(Automatización de datos) Tamaño máximo del archivo de vídeo (MB)	Cada región admitida: 10 240	No	El tamaño de archivo máximo para los vídeos
(Automatización de datos) Duración máxima del vídeo (minutos)	Cada región compatible: 240	No	La duración máxima de los vídeos en minutos
(Automatización de datos) Frecuencia mínima de muestreo de audio (Hz)	Cada región admitida: 8 000	No	Frecuencia de muestreo de audio en Hz.
(Automatización de datos) Duración mínima de audio (milisegundos)	Cada región admitida: 500	No	La duración mínima del audio en milisegundos
(Evaluación) Número de tareas simultáneas de evaluación automática del modelo	Cada región admitida: 20	No	La cantidad máxima de trabajos de evaluación automática de modelos que puede especificar al mismo tiempo en esta cuenta en la región actual.
(Evaluación) Número de trabajos simultáneos de evaluación de modelos en los que participan trabajadores humanos	Cada región admitida: 10	No	El número máximo de trabajos de evaluación de modelos que utilizan trabajadores humanos que puede especificar al mismo tiempo en esta cuenta en la región actual.
(Evaluación) Número de métricas personalizadas	Cada región admitida: 10	No	La cantidad máxima de métricas personalizadas que puede especificar en un trabajo de evaluación del modelo en el que intervienen trabajadores humanos.
(Evaluación) La cantidad de conjuntos de datos de peticiones personalizadas en un trabajo de evaluación de modelos con intervención humana	Cada región admitida: 1	No	La cantidad máxima de conjuntos de datos de peticiones personalizadas que puede especificar en un trabajo de evaluación de modelos basados en humanos en esta cuenta en la región actual.
(Evaluación) Número de conjuntos de datos por trabajo	Cada región admitida: 5	No	La cantidad máxima de conjuntos de datos que puede especificar en un trabajo de evaluación de modelos automatizada. Esto incluye conjuntos de datos de peticiones personalizado e integrado.
(Evaluación) Número de trabajos de evaluación	Cada región admitida: 5000	No	El número máximo de trabajos de evaluación de modelos que puede crear en esta cuenta en la región actual.
(Evaluación) Número de métricas por conjunto de datos	Cada región admitida: 3	No	El número máximo de métricas que puede especificar por conjunto de datos en un trabajo de evaluación de modelos automatizado. Esto incluye métricas personalizadas e integradas.
(Evaluación) Número de modelos en un trabajo de evaluación de modelos en el que participan trabajadores humanos	Cada región admitida: 2	No	La cantidad máxima de modelos que puede especificar en un trabajo de evaluación de modelos en el que intervienen trabajadores humanos.
(Evaluación) Número de modelos en un trabajo de evaluación de modelos automatizada	Cada región admitida: 1	No	El número máximo de modelos que puede especificar en un trabajo de evaluación de modelos automatizado.
(Evaluación) Número de peticiones en un conjunto de datos de peticiones personalizado	Cada región admitida: 1000	No	El número máximo de peticiones que puede contener un conjunto de datos de peticiones personalizadas.
(Evaluación) Tamaño de la petición	Cada región admitida: 4	No	El tamaño máximo (en KB) de una petición individual en un conjunto de datos de solicitudes personalizado.
(Evaluación) Tiempo de trabajo para los trabajadores	Cada región admitida: 30	No	El tiempo máximo (en días) del que puede disponer un trabajador para completar las tareas.
(Flujos) Nodos de agente por flujo	Cada región admitida: 20	No	El número máximo de nodos de agente.
(Flujos) Nodos recopiladores por flujo	Cada región admitida: 1	No	El número máximo de nodos del colector.
(Flujos) Condiciona los nodos por flujo	Cada región admitida: 5	No	Número máximo de nodos por servicio de contenedor.
(Flujos) Condiciones por nodo de condición	Cada región admitida: 5	No	El número máximo de condiciones por nodo de condición.
(Fluye) CreateFlow solicitudes por segundo	Cada región admitida: 2	No	El número máximo de CreateFlow solicitudes por segundo.
(Fluye) CreateFlowAlias solicitudes por segundo	Cada región admitida: 2	No	El número máximo de CreateFlowAlias solicitudes por segundo.
(Fluye) CreateFlowVersion solicitudes por segundo	Cada región admitida: 2	No	El número máximo de CreateFlowVersion solicitudes por segundo.
(Fluye) DeleteFlow solicitudes por segundo	Cada región admitida: 2	No	El número máximo de DeleteFlow solicitudes por segundo.
(Fluye) DeleteFlowAlias solicitudes por segundo	Cada región admitida: 2	No	El número máximo de DeleteFlowAlias solicitudes por segundo.
(Fluye) DeleteFlowVersion solicitudes por segundo	Cada región admitida: 2	No	El número máximo de DeleteFlowVersion solicitudes por segundo.
(Flujos) Alias de flujo por flujo	Cada región admitida: 10	No	El número máximo de alias de flujo.
(Flujos) Ejecuciones de flujo por cuenta	Cada región admitida: 1000	Sí	Número máximo de planes de ejecución de revisión de puntuación por cuenta.
(Flujos) Versiones de flujo por flujo	Cada región admitida: 10	No	Número máximo de versiones que se van a devolver.
(Flujos) Flujos por cuenta	Cada región admitida: 100	Sí	Número máximo de grupos de informes por cuenta.
(Fluye) GetFlow solicitudes por segundo	Cada región admitida: 10	No	El número máximo de GetFlow solicitudes por segundo.
(Fluye) GetFlowAlias solicitudes por segundo	Cada región admitida: 10	No	El número máximo de GetFlowAlias solicitudes por segundo.
(Fluye) GetFlowVersion solicitudes por segundo	Cada región admitida: 10	No	El número máximo de GetFlowVersion solicitudes por segundo.
(Flujos) Nodos de código en línea por flujo	Cada región admitida: 5	No	Número máximo de nodos de código en línea por flujo.
(Flujos) Nodos de entrada por flujo	Cada región admitida: 1	No	El número máximo de nodos de entrada de flujo.
(Flujos) Nodos iteradores por flujo	Cada región admitida: 1	No	El número máximo de iteradores es 100.
(Flujos) Nodos de la base de conocimientos por flujo	Cada región admitida: 20	No	El número máximo de nodos de la base de conocimiento.
(Flujos) Nodos de la función de Lambda por flujo	Cada región admitida: 20	No	El número máximo de nodos de la función de Lambda.
(Flujos) Nodos Lex por flujo	Cada región admitida: 5	No	El número máximo de nodos Lex.
(Fluye) ListFlowAliases solicitudes por segundo	Cada región admitida: 10	No	El número máximo de ListFlowAliases solicitudes por segundo.
(Fluye) ListFlowVersions solicitudes por segundo	Cada región admitida: 10	No	El número máximo de ListFlowVersions solicitudes por segundo.
(Fluye) ListFlows solicitudes por segundo	Cada región admitida: 10	No	El número máximo de ListFlows solicitudes por segundo.
(Flujos) Nodos de salida por flujo	Cada región admitida: 20	No	El número máximo de nodos de salida de flujo.
(Fluye) PrepareFlow solicitudes por segundo	Cada región admitida: 2	No	El número máximo de PrepareFlow solicitudes por segundo.
(Flujos) Nodos de petición por flujo	Cada región admitida: 20	Sí	El número máximo de nodos de petición.
(Flujos) Nodos de recuperación S3 por flujo	Cada región admitida: 10	No	Número máximo de nodos de recuperación de S3.
(Flujos) Nodos de almacenamiento S3 por flujo	Cada región admitida: 10	No	El número máximo de nodos de almacenamiento de S3.
(Flujos) Número total de nodos por flujo	Cada región admitida: 40	No	El número máximo de nodos de un flujo.
(Fluye) UpdateFlow solicitudes por segundo	Cada región admitida: 2	No	El número máximo de UpdateFlow solicitudes por segundo.
(Fluye) UpdateFlowAlias solicitudes por segundo	Cada región admitida: 2	No	El número máximo de UpdateFlowAlias solicitudes por segundo.
(Fluye) ValidateFlowDefinition solicitudes por segundo	Cada región admitida: 2	No	El número máximo de ValidateFlowDefinition solicitudes por segundo.
(Barreras de protección) Políticas de razonamiento automatizado por barreras de protección	Cada región admitida: 2	No	El número máximo de políticas de razonamiento automatizado por barreras de protección.
(Barandillas) Política de contenido: tamaño máximo de entrada en unidades de texto (nivel clásico)	us-east-1: 1000 us-east-2: 1000 us-west-2: 1000 ap-northeast-1: 1000 ap-northeast-2:1,000 ap-south-1: 1000 ap-southeast-1: 1000 ap-southeast-2: 1000 eu-central-1: 1000 eu-south-1:25 eu-west-3:25 sa-east-1:25 Cada una de las demás regiones compatibles: 106	Sí	El tamaño máximo del texto de entrada, medido en unidades de texto, que se puede procesar para los filtros de contenido. Si bien este límite se aplica al nivel clásico, recomendamos migrar al nivel estándar debido a su solidez superior, sus capacidades adicionales y su compatibilidad multilingüe.
(Barandillas) Política de contenido: tamaño máximo de entrada en unidades de texto (se recomienda el nivel estándar)	us-east-1: 1000 us-east-2: 1000 us-west-2: 1000 ap-northeast-1:500 ap-northeast-2:1,000 ap-south-1:500 ap-southeast-1: 1000 ap-southeast-2:400 eu-central-1:500 eu-south-1:25 eu-west-3:25 Cada una de las demás regiones compatibles: 106	Sí	El tamaño máximo del texto de entrada, medido en unidades de texto, que se puede procesar para los filtros de contenido. Esto se aplica al nivel estándar, que se recomienda.
(Barandillas) Política de base contextual: tamaño máximo de entrada en unidades de texto	Cada región compatible: 106	Sí	El tamaño máximo del texto de entrada, medido en unidades de texto, que se puede procesar mediante políticas de base contextual
(Barreras de protección) Longitud de consulta basada en el contexto en unidades de texto	Cada región admitida: 1	No	La longitud máxima, en unidades de texto, de la consulta para su fundamentación contextual
(Barreras de protección) Longitud de la respuesta basada en el contexto en unidades de texto	Cada región admitida: 5	No	La longitud máxima, en unidades de texto, de la respuesta para fundamentarla en el contexto
(Barreras de protección) Longitud de la fuente de base contextual en unidades de texto	us-east-1: 100 us-west-2: 100 Cada una de las demás regiones compatibles: 50	No	La longitud máxima, en unidades de texto, de la fuente de conexión a tierra para la fundamentación contextual
(Barreras de protección) Ejemplos de frases por tema	Cada región admitida: 5	No	El número máximo de ejemplos de temas que se pueden incluir por tema
(Barreras de protección) Barreras de protección por cuenta	Cada región admitida: 100	No	Número máximo de barreras de protección en una cuenta
(Barandillas) Velocidad de ráfaga de unidades de texto de la política de filtrado de On-demand ApplyGuardrail contenido (nivel clásico)	us-east-1: 1000 us-east-2: 1000 us-west-2: 1000 ap-northeast-1: 1000 ap-northeast-2:1,000 ap-south-1: 1000 ap-southeast-1: 1000 ap-southeast-2: 1000 eu-central-1: 1000 Cada una de las demás regiones compatibles: 25	No	El número máximo de unidades de texto en una ráfaga que se pueden procesar para los filtros de contenido. Si bien este límite se aplica al nivel clásico, recomendamos migrar al nivel estándar debido a su solidez superior, sus capacidades adicionales y su compatibilidad con varios idiomas.
(Barandillas) Política de filtrado de On-demand ApplyGuardrail contenido, velocidad de ráfaga de unidades de texto (nivel estándar, recomendado)	us-east-1: 1000 us-east-2: 1000 us-west-2: 1000 ap-northeast-1:500 ap-northeast-2:1,000 ap-south-1:500 ap-southeast-1: 1000 ap-southeast-2:400 eu-central-1:500 Cada una de las demás regiones compatibles: 25	No	El número máximo de unidades de texto en una ráfaga que se pueden procesar para los filtros de contenido. Esto se aplica al nivel estándar, que se recomienda.
(Barandillas) Unidades de texto por segundo de la política de filtrado de On-demand ApplyGuardrail contenido (nivel clásico)	us-east-1: 200 us-west-2: 200 Cada una de las demás regiones compatibles: 25	Sí	El número máximo de unidades de texto por segundo que se pueden procesar para los filtros de contenido. Si bien este límite se aplica al nivel clásico, recomendamos migrar al nivel estándar debido a su solidez superior, sus capacidades adicionales y su compatibilidad con varios idiomas.
(Guardrails) Unidades de texto de la política de filtrado de On-demand ApplyGuardrail contenido por segundo (se recomienda el nivel estándar)	us-east-1: 200 us-east-2:200 us-west-1:200 us-west-2: 200 ap-northeast-1:50 ap-northeast-2: 100 ap-south-1:50 ap-southeast-1: 100 eu-central-1:50 Cada una de las demás regiones compatibles: 25	Sí	El número máximo de unidades de texto por segundo que se pueden procesar para los filtros de contenido. Esto se aplica al nivel estándar, que se recomienda.
(Barreras) Velocidad de ráfaga de unidades de texto de la política de temas On-demand ApplyGuardrail denegados (nivel clásico)	us-east-1: 200 us-west-2: 200 Cada una de las demás regiones compatibles: 25	No	El número máximo de unidades de texto en una ráfaga que se pueden procesar para los temas rechazados. Si bien este límite se aplica al nivel clásico, recomendamos migrar al nivel estándar debido a su solidez superior, sus capacidades adicionales y su compatibilidad con varios idiomas.
(Barandillas) Velocidad de ráfaga de unidades de texto de la política de temas On-demand ApplyGuardrail denegados (nivel estándar, recomendado)	us-east-1: 1000 us-east-2: 1000 us-west-2: 1000 ap-northeast-1:500 ap-northeast-2:1,000 ap-south-1:500 ap-southeast-1: 1000 ap-southeast-2:400 eu-central-1:500 Cada una de las demás regiones compatibles: 25	No	El número máximo de unidades de texto en una ráfaga que se pueden procesar para los temas rechazados. Esto se aplica al nivel estándar, que se recomienda.
(Barandillas) Unidades de texto por segundo de la política temática On-demand ApplyGuardrail denegada (nivel clásico)	us-east-1:50 us-west-2:50 Cada una de las demás regiones compatibles: 25	Sí	El número máximo de unidades de texto por segundo que se pueden procesar para los temas rechazados. Si bien este límite se aplica al nivel clásico, recomendamos migrar al nivel estándar debido a su solidez superior, sus capacidades adicionales y su compatibilidad con varios idiomas.
(Barandillas) Se On-demand ApplyGuardrail deniegan las unidades de texto de la política temática por segundo (se recomienda el nivel estándar)	us-east-1: 200 us-west-2: 200 Cada una de las demás regiones compatibles: 25	Sí	El número máximo de unidades de texto por segundo que se pueden procesar para los temas rechazados. Esto se aplica al nivel estándar, que se recomienda.
(Barandillas) Política de filtrado de información On-demand ApplyGuardrail confidencial: unidades de texto, velocidad de ráfaga	us-east-1: 1000 us-east-2: 1000 us-west-2: 1000 ap-northeast-1: 1000 ap-northeast-2:1,000 ap-south-1: 1000 ap-southeast-1: 1000 ap-southeast-2: 1000 eu-central-1: 1000 Cada una de las demás regiones compatibles: 25	No	El número máximo de unidades de texto en una ráfaga que se pueden procesar para los filtros de información confidencial.
(Barandillas) Unidades de texto de la política de filtrado de información On-demand ApplyGuardrail confidencial por segundo	us-east-1: 500 us-east-2:100 us-west-1:50 us-west-2: 500 ap-northeast-1:500 ap-northeast-2: 100 ap-south-1:200 ap-southeast-1: 100 ca-central-1:250 eu-central-1:500 Cada una de las demás regiones compatibles: 25	Sí	El número máximo de unidades de texto por segundo que se pueden procesar para los filtros de información confidencial.
(Barandillas) Velocidad de ráfaga de unidades de texto según la política de filtrado de On-demand ApplyGuardrail palabras	us-east-1: 1000 us-east-2: 1000 us-west-2: 1000 ap-northeast-1: 1000 ap-northeast-2:1,000 ap-south-1: 1000 ap-southeast-1: 1000 ap-southeast-2: 1000 eu-central-1: 1000 Cada una de las demás regiones compatibles: 25	No	El número máximo de unidades de texto en una ráfaga que se pueden procesar para los filtros de palabras.
(Barandillas) Unidades de texto por segundo de la política de filtrado de On-demand ApplyGuardrail Word	us-east-1: 500 us-east-2:500 us-west-1:500 us-west-2: 500 ap-northeast-1:500 ap-northeast-2:500 ap-south-1:500 ap-southeast-1:500 eu-central-1:500 Cada una de las demás regiones compatibles: 25	Sí	El número máximo de unidades de texto por segundo que se pueden procesar para los filtros de palabras.
(Barandillas), política de base On-demand ApplyGuardrail contextual, velocidad de ráfaga de unidades de texto	Cada región compatible: 106	No	El número máximo de unidades de texto en una ráfaga que se pueden procesar para basarlo en el contexto.
(Barandillas): unidades de texto por segundo de la política de fundamentación On-demand ApplyGuardrail contextual	Cada región compatible: 106	Sí	El número máximo de unidades de texto por segundo que se pueden procesar para basarlo en el contexto.
(Guardrails) On-demand ApplyGuardrail solicita la velocidad de ráfaga	us-east-1: 100 us-east-2:100 us-west-1:100 us-west-2: 100 ap-northeast-1:100 ap-northeast-2: 100 ap-south-1: 100 ap-southeast-1: 100 eu-central-1:100 Cada una de las demás regiones compatibles: 25	No	El número máximo de llamadas a la ApplyGuardrail API que puedes enviar en una ráfaga.
(Barandillas) On-demand ApplyGuardrail solicitudes por segundo	us-east-1: 100 us-east-2:100 us-west-1:100 us-west-2: 100 ap-northeast-1:100 ap-northeast-2: 100 ap-south-1: 100 ap-southeast-1: 100 eu-central-1:100 Cada una de las demás regiones compatibles: 25	Sí	El número máximo de llamadas a la ApplyGuardrail API permitidas por segundo
(Guardrails) On-demand InvokeGuardrailChecks solicita la velocidad de ráfaga	Cada región admitida: 1500	No	El número máximo de llamadas a la InvokeGuardrailChecks API que puedes enviar en una ráfaga
(Barandillas) On-demand InvokeGuardrailChecks solicitudes por minuto	Cada región admitida: 1500	Sí	El número máximo de llamadas a la InvokeGuardrailChecks API permitidas por minuto
(Barreras de protección) Entidades de expresión regular en el filtro de información confidencial	Cada región admitida: 30	No	La cantidad máxima de expresiones regulares del filtro de barreras de protección que se pueden incluir en una política de información confidencial
(Barreras de protección) Longitud de las expresiones regulares en caracteres	Cada región admitida: 500	No	La longitud máxima, en caracteres, de una expresión regular de un filtro de barrera de protección
(Barandillas) Política de información confidencial: tamaño máximo de entrada en unidades de texto	us-east-1: 1000 us-east-2: 1000 us-west-2: 1000 ap-northeast-1: 1000 ap-northeast-2:1,000 ap-south-1: 1000 ap-southeast-1: 1000 ap-southeast-2: 1000 eu-central-1: 1000 Cada una de las demás regiones compatibles: 106	Sí	El tamaño máximo del texto de entrada, medido en unidades de texto, que pueden procesar las políticas de filtrado de información confidencial
(Barandillas) Tamaño máximo de entrada de la política temática en unidades de texto (nivel clásico)	us-east-1: 200 us-west-2: 200 ap-southeast-1:25 eu-south-1:25 eu-west-3:25 sa-east-1:25 Cada una de las demás regiones compatibles: 106	Sí	El tamaño máximo del texto introducido, medido en unidades de texto, que se puede procesar para los temas rechazados. Si bien este límite se aplica al nivel clásico, recomendamos migrar al nivel estándar debido a su solidez superior, capacidades adicionales y soporte multilingüe.
(Barandillas) Tamaño máximo de entrada en unidades de texto según la política temática (se recomienda el nivel estándar)	us-east-1: 1000 us-east-2: 1000 us-west-2: 1000 ap-northeast-1:500 ap-northeast-2:1,000 ap-south-1:500 ap-southeast-1: 1000 ap-southeast-2:400 eu-central-1:500 eu-south-1:25 eu-west-3:25 Cada una de las demás regiones compatibles: 106	Sí	El tamaño máximo del texto introducido, medido en unidades de texto, que se puede procesar para los temas rechazados. Esto se aplica al nivel estándar, que es el recomendado.
(Barreras de protección) Temas por barrera de protección	Cada región admitida: 30	No	Número máximo de temas que se pueden definir en las políticas de temas de la barrera de protección
(Barreras de protección) Versiones por barrera de protección	Cada región admitida: 20	No	Número máximo de versiones que puede tener una barrera de protección
(Barreras de protección) Longitud de las palabras en caracteres	Cada región admitida: 100	No	La longitud máxima de una palabra, en caracteres, de una lista de palabras bloqueadas
(Barandillas) Política de Word: tamaño máximo de entrada en unidades de texto	us-east-1: 1000 us-east-2: 1000 us-west-2: 1000 ap-northeast-1: 1000 ap-northeast-2:1,000 ap-south-1: 1000 ap-southeast-1: 1000 ap-southeast-2: 1000 eu-central-1: 1000 Cada una de las demás regiones compatibles: 106	Sí	El tamaño máximo del texto introducido, medido en unidades de texto, que pueden procesar las políticas de filtrado de Word
(Barreras de protección) Política de palabras por palabra	Cada región admitida: 10 000	No	El número máximo de palabras que se pueden incluir en una lista de palabras bloqueadas
(Bases de conocimiento) DeleteKnowledgeBaseDocuments Solicitudes IngestKnowledgeBaseDocuments simultáneas y por cuenta	Cada región admitida: 10	No	El número máximo de DeleteKnowledgeBaseDocuments solicitudes IngestKnowledgeBaseDocuments y solicitudes que se pueden ejecutar al mismo tiempo en una cuenta.
(Bases de conocimiento) Trabajos de ingesta simultáneos por cuenta	Cada región admitida: 5	No	Número máximo de trabajos que puede ejecutar al mismo tiempo en esta cuenta de .
(Bases de conocimiento) Trabajos de ingesta simultáneos por origen de datos	Cada región admitida: 1	No	La cantidad máxima de trabajos de ingesta que se pueden ejecutar al mismo tiempo para un origen de datos.
(Bases de conocimiento) Trabajos de ingesta simultáneos por base de conocimientos	Cada región admitida: 1	No	La cantidad máxima de trabajos de ingestión que se pueden ejecutar al mismo tiempo para una base de conocimientos.
(Bases de conocimiento) CreateDataSource solicitudes por segundo	Cada región admitida: 2	No	El número máximo de solicitudes de CreateDataSource API por segundo.
(Bases de conocimiento) CreateKnowledgeBase solicitudes por segundo	Cada región admitida: 2	No	El número máximo de solicitudes de CreateKnowledgeBase API por segundo.
(Bases de conocimiento) Orígenes de dato por base de conocimientos	Cada región admitida: 5	No	El número máximo de orígenes de datos por base de conocimientos.
(Bases de conocimiento) DeleteDataSource solicitudes por segundo	Cada región admitida: 2	No	El número máximo de solicitudes de DeleteDataSource API por segundo.
(Bases de conocimiento) DeleteKnowledgeBase solicitudes por segundo	Cada región admitida: 2	No	El número máximo de solicitudes de DeleteKnowledgeBase API por segundo.
(Bases de conocimiento) DeleteKnowledgeBaseDocuments solicitudes por segundo	Cada región admitida: 5	No	El número máximo de solicitudes de DeleteKnowledgeBaseDocuments API por segundo.
(Bases de conocimiento) Archivos que se agregarán o actualizarán por trabajo de ingesta	Cada región admitida: 5 000 000	No	La cantidad máxima de archivos nuevos y actualizados que se pueden ingerir por trabajo de ingesta.
(Bases de conocimiento) Archivos que se eliminarán por trabajo de ingesta	Cada región admitida: 5 000 000	No	El número máximo de archivos que se pueden eliminar por trabajo de ingestión.
(Bases de conocimiento) Archivos que se van a ingerir por IngestKnowledgeBaseDocuments trabajo.	Cada región admitida: 25	No	El número máximo de documentos que se pueden ingerir por solicitud. IngestKnowledgeBaseDocuments
(Bases de conocimiento) GenerateQuery solicitudes por segundo	Cada región admitida: 2	No	El número máximo de solicitudes de GenerateQuery API por segundo.
(Bases de conocimiento) GetDataSource solicitudes por segundo	Cada región admitida: 10	No	El número máximo de solicitudes de GetDataSource API por segundo.
(Bases de conocimiento) GetIngestionJob solicitudes por segundo	Cada región admitida: 10	No	El número máximo de solicitudes de GetIngestionJob API por segundo.
(Bases de conocimiento) GetKnowledgeBase solicitudes por segundo	Cada región admitida: 10	No	El número máximo de solicitudes de GetKnowledgeBase API por segundo.
(Bases de conocimiento) GetKnowledgeBaseDocuments solicitudes por segundo	Cada región admitida: 5	No	El número máximo de solicitudes de GetKnowledgeBaseDocuments API por segundo.
(Bases de conocimiento) IngestKnowledgeBaseDocuments solicitudes por segundo	Cada región admitida: 5	No	El número máximo de solicitudes de IngestKnowledgeBaseDocuments API por segundo.
(Bases de conocimiento) tamaño IngestKnowledgeBaseDocuments total de la carga útil	Cada región admitida: 6	No	El tamaño máximo (en MB) de la carga útil total de una IngestKnowledgeBaseDocuments solicitud.
(Bases de conocimiento) Tamaño del archivo de trabajo de ingestión con contenido de texto	Cada región admitida: 50	No	El tamaño máximo (en MB) de un archivo con contenido de texto (como archivos.txt, .pdf o.docx) en un trabajo de ingestión.
(Bases de conocimiento) Tamaño del trabajo de ingesta	Cada región admitida: 100	No	El tamaño máximo (en GB) de un trabajo de ingestión.
(Bases de conocimiento) Bases de conocimiento por cuenta	Cada región admitida: 100	No	El número máximo de bases de conocimiento por cuenta.
(Bases de conocimiento) solicitudes por segundo ListDataSources	Cada región admitida: 10	No	El número máximo de solicitudes de ListDataSources API por segundo.
(Bases de conocimiento) ListIngestionJobs solicitudes por segundo	Cada región admitida: 10	No	El número máximo de solicitudes de ListIngestionJobs API por segundo.
(Bases de conocimiento) ListKnowledgeBaseDocuments solicitudes por segundo	Cada región admitida: 5	No	El número máximo de solicitudes de ListKnowledgeBaseDocuments API por segundo.
(Bases de conocimiento) ListKnowledgeBases solicitudes por segundo	Cada región admitida: 10	No	El número máximo de solicitudes de ListKnowledgeBases API por segundo.
(Bases de conocimiento) Cantidad máxima de archivos por analizador BDA	Cada región admitida: 1000	No	La cantidad máxima de archivos que se pueden usar con Amazon Bedrock Data Automation como analizador.
(Bases de conocimiento) Cantidad máxima de archivos por modelo fundacional como analizador	Cada región admitida: 1000	No	Número máximo de archivos que se pueden usar con Foundation Models como analizador.
(Bases de conocimiento) Solicitudes de Rerank por segundo	Cada región admitida: 10	No	El número máximo de solicitudes de CreatePolicy por segundo.
(Bases de conocimiento) Solicitudes de Retrieve por segundo	Cada región admitida: 20	No	Número máximo de solicitudes de la API GetPolicy por segundo.
(Bases de conocimiento) RetrieveAndGenerate solicitudes por segundo	Cada región admitida: 20	No	El número máximo de solicitudes de RetrieveAndGenerate API por segundo.
(Bases de conocimiento) RetrieveAndGenerateStream solicitudes por segundo	Cada región admitida: 20	No	El número máximo de solicitudes de RetrieveAndGenerateStream API por segundo.
(Bases de conocimiento) StartIngestionJob solicitudes por segundo	Cada región compatible: 0,1	No	El número máximo de solicitudes de StartIngestionJob API por segundo.
(Bases de conocimiento) UpdateDataSource solicitudes por segundo	Cada región admitida: 2	No	El número máximo de solicitudes de UpdateDataSource API por segundo.
(Bases de conocimiento) UpdateKnowledgeBase solicitudes por segundo	Cada región admitida: 2	No	El número máximo de solicitudes de UpdateKnowledgeBase API por segundo.
(Bases de conocimiento) Tamaño de la consulta del usuario	Cada región admitida: 1000	No	El tamaño máximo (en caracteres) de una consulta de usuario.
(Bases de conocimiento gestionadas) AgenticRetrieveStream solicitudes por segundo por cuenta	Cada región admitida: 1	No	El número máximo de solicitudes de AgenticRetrieveStream API por segundo por cuenta para los KB gestionados.
(Bases de conocimiento gestionadas) tamaño AgenticRetrieveStream de consulta de usuario	Cada región admitida: 10 000	No	El tamaño máximo (en caracteres) de una consulta de usuario AgenticRetrieveStream para los KB gestionados.
(Bases de conocimiento gestionadas) Trabajos de ingesta simultánea por base de conocimientos	Cada región admitida: 50	No	El número máximo de trabajos de ingestión simultáneos por KB gestionado.
(Bases de conocimiento gestionadas) Fuentes de datos por base de conocimiento	Cada región admitida: 200	No	El número máximo de fuentes de datos por KB gestionado.
(Bases de conocimiento gestionadas) DeleteKnowledgeBaseDocuments solicitudes por segundo	Cada región admitida: 10	No	El número máximo de solicitudes de DeleteKnowledgeBaseDocuments API por segundo para los KB gestionados.
(Bases de conocimiento gestionadas) DeleteResourcePolicy solicitudes por segundo	Cada región admitida: 5	No	El número máximo de solicitudes de DeleteResourcePolicy API por segundo para los KB gestionados.
(Bases de conocimiento gestionadas) Archivos que se van a ingerir por solicitud IngestKnowledgeBaseDocuments	Cada región admitida: 10	No	El número máximo de archivos que se deben ingerir por solicitud de IngestKnowledgeBaseDocuments API para los KB gestionados.
(Bases de conocimiento gestionadas) GetDocumentContent solicitudes por segundo por cuenta	Cada región admitida: 100	No	El número máximo de solicitudes de GetDocumentContent API por segundo por cuenta.
(Bases de conocimiento gestionadas) GetDocumentContent solicitudes por segundo por base de conocimiento	Cada región admitida: 5	No	El número máximo de solicitudes de GetDocumentContent API por segundo por KB gestionado.
(Bases de conocimiento gestionadas) GetResourcePolicy solicitudes por segundo	Cada región admitida: 5	No	El número máximo de solicitudes de GetResourcePolicy API por segundo para los KB gestionados.
(Bases de conocimiento gestionadas) Tamaño del texto extraído del archivo individual (MB)	Cada región admitida: 30	No	El tamaño máximo (en MB) del texto extraído de un único archivo para los KB gestionados.
(Bases de conocimiento gestionadas) IngestKnowledgeBaseDocuments solicitudes por segundo	Cada región admitida: 20	No	El número máximo de solicitudes de IngestKnowledgeBaseDocuments API por segundo para los KB gestionados.
(Bases de conocimiento gestionadas) Bases de conocimiento por cuenta	Cada región admitida: 1000	No	El número máximo de KB gestionados por cuenta.
(Bases de conocimiento gestionadas) ListKnowledgeBaseDocuments solicitudes por segundo	Cada región admitida: 10	No	El número máximo de solicitudes de ListKnowledgeBaseDocuments API por segundo para los KB gestionados.
(Bases de conocimiento gestionadas) PutResourcePolicy solicitudes por segundo	Cada región admitida: 5	No	El número máximo de solicitudes de PutResourcePolicy API por segundo para los KB gestionados.
(Bases de conocimiento gestionadas) Recupera las solicitudes por segundo por cuenta	Cada región admitida: 100	No	El número máximo de solicitudes de API de recuperación por segundo por cuenta para los KB gestionados.
(Bases de conocimiento gestionadas) Recupera solicitudes por segundo por base de conocimiento	Cada región admitida: 5	No	El número máximo de solicitudes de API de recuperación por segundo por KB gestionado.
(Bases de conocimiento gestionadas) Recupera el tamaño de la consulta del usuario	Cada región admitida: 10 000	No	El tamaño máximo (en caracteres) de una consulta de usuario para Retrieve for Managed KBs.
(Bases de conocimiento gestionadas) Tamaño total de almacenamiento por base de conocimiento (TB)	Cada región admitida: 10	No	El tamaño máximo de almacenamiento total (en TB) por KB gestionado.
(Personalización del modelo) Modelos personalizados por cuenta	Cada región admitida: 100	Sí	Número máximo de modelos en la misma cuenta.
(Personalización de modelos) despliegues de modelos In-progress personalizados	Cada región admitida: 2	Sí	Número máximo de implementaciones de modelos personalizado en curso
(Personalización del modelo) Tamaño máximo del archivo de entrada para los trabajos de personalización de destilación	Cada región admitida: 2 gigabytes	No	El tamaño máximo del archivo de entrada para los trabajos de personalización de la destilación.
(Personalización del modelo) Longitud máxima de línea para los trabajos de personalización de destilación	Cada región admitida: 16 kilobytes	No	La longitud máxima de línea en el archivo de entrada para los trabajos de personalización de la destilación.
(Personalización del modelo) Número máximo de peticiones para los trabajos de personalización de destilación	Cada región admitida: 15 000	No	El número máximo de peticiones necesarias para los trabajos de personalización de la destilación.
(Personalización del modelo) Número máximo de registros de formación para un Fine-tuning trabajo de Amazon Nova Canvas	Cada región admitida: 10 000	Sí	El número máximo de registros permitido para un Fine-tuning trabajo de Amazon Nova Canvas.
(Personalización del modelo) Longitud máxima del contexto de refinamiento del modelo aprendiz para los trabajos de personalización de destilación de Amazon Nova Micro V1	Cada región admitida: 32 000	No	La longitud máxima del contexto de refinamiento del modelo aprendiz para los trabajos de personalización de la destilación de Amazon Nova Micro V1.
(Personalización del modelo) Longitud máxima del contexto de refinamiento del modelo aprendiz para los trabajos de personalización de la destilación de Amazon Nova V1	Cada región admitida: 32 000	No	La longitud máxima del contexto de refinamiento del modelo aprendiz para los trabajos de personalización de la destilación de Amazon Nova V1.
(Personalización del modelo) Longitud máxima del contexto de refinamiento del modelo aprendiz para los trabajos de personalización de la destilación Anthropic Claude 3 haiku 20240307 V1	Cada región admitida: 32 000	No	La longitud máxima del contexto de refinamiento del modelo aprendiz para los trabajos de personalización de la destilación haiku 20240307 V1 de Anthropic Claude 3.
(Personalización del modelo) Longitud máxima del contexto de refinamiento del modelo aprendiz para los trabajos de personalización de la destilación Llama 3.1 70B Instruct V1	Cada región admitida: 16 000	No	La longitud máxima del contexto de refinamiento del modelo aprendiz para los trabajos de personalización de la destilación Llama 3.1 70B Instruct V1.
(Personalización del modelo) Longitud máxima del contexto de refinamiento del modelo aprendiz para los trabajos de personalización de la destilación Llama 3.1 8B Instruct V1	Cada región admitida: 32 000	No	La longitud máxima del contexto de refinamiento del modelo aprendiz para los trabajos de personalización de la destilación Llama 3.1 8B Instruct V1.
(Personalización del modelo) Número mínimo de peticiones para los trabajos de personalización de la destilación	Cada región admitida: 100	No	El número mínimo de peticiones necesario para los trabajos de personalización de la destilación.
(Personalización del modelo) Trabajos de personalización programados	Cada región admitida: 10	No	El número máximo de trabajos de personalización programados.
(Personalización del modelo) Suma de las solicitudes de implementación de modelos personalizados bajo demanda por minuto para Amazon Nova 2 Lite	Cada región admitida: 2000	No	La suma de las solicitudes de implementación de modelos personalizados bajo demanda de entrada y salida por minuto enviadas a Converse, ConverseStream InvokeModel, y InvokeModelWithResponseStream las acciones para Amazon Nova 2 Lite
(Personalización del modelo) Suma de las solicitudes de implementación de modelos personalizados bajo demanda por minuto para Amazon Nova Lite	Cada región admitida: 2000	No	La suma de las solicitudes de implementación de modelos personalizados bajo demanda de entrada y salida por minuto enviadas a Converse, ConverseStream InvokeModel, y InvokeModelWithResponseStream las acciones de Amazon Nova Lite
(Personalización del modelo) Suma de las solicitudes de implementación de modelos personalizados bajo demanda por minuto para Amazon Nova Micro	Cada región admitida: 2000	No	La suma de las solicitudes de implementación de modelos personalizados bajo demanda de entrada y salida por minuto enviadas a Converse, ConverseStream InvokeModel, y InvokeModelWithResponseStream las acciones de Amazon Nova Micro
(Personalización del modelo) Suma de las solicitudes de implementación de modelos personalizados bajo demanda por minuto para Amazon Nova Pro	Cada región admitida: 200	No	La suma de las solicitudes de implementación de modelos personalizados bajo demanda de entrada y salida por minuto enviadas a Converse, ConverseStream InvokeModel, y InvokeModelWithResponseStream las acciones de Amazon Nova Pro
(Personalización del modelo) Suma de las solicitudes de implementación de modelos personalizados bajo demanda por minuto para Meta Llama 3.3 70B Instruct	Cada región admitida: 400	No	La suma de las solicitudes de implementación de modelos personalizados a pedido ingresadas y salidas por minuto enviadas a Converse ConverseStream InvokeModel, y InvokeModelWithResponseStream las acciones para Meta Llama 3.3 70B Instruct
(Personalización del modelo) Suma de los tokens de despliegue de modelos personalizados a pedido por día para Amazon Nova 2 Lite	Cada región admitida: 5 760 000 000	No	La suma de los tokens de implementación de modelos personalizados bajo demanda de entrada y salida por día enviados a Converse, ConverseStream InvokeModel, y InvokeModelWithResponseStream las acciones para Amazon Nova 2 Lite
(Personalización del modelo) Suma de los tokens de implementación de modelos personalizados bajo demanda por día para Amazon Nova Lite	Cada región admitida: 5 760 000 000	No	La suma de los tokens de implementación de modelos personalizados bajo demanda de entrada y salida por día enviados a Converse, ConverseStream InvokeModel, y InvokeModelWithResponseStream las acciones para Amazon Nova Lite
(Personalización del modelo) Suma de los tokens de implementación de modelos personalizados bajo demanda por día para Amazon Nova Micro	Cada región admitida: 5 760 000 000	No	La suma de los tokens de implementación de modelos personalizados bajo demanda de entrada y salida por día enviados a Converse, ConverseStream InvokeModel, y InvokeModelWithResponseStream las acciones de Amazon Nova Micro
(Personalización del modelo) Suma de los tokens de implementación de modelos personalizados bajo demanda por día para Amazon Nova Pro	Cada región admitida: 1 152 000 000	No	La suma de los tokens de implementación de modelos personalizados bajo demanda de entrada y salida por día enviados a Converse, ConverseStream InvokeModel, y InvokeModelWithResponseStream las acciones de Amazon Nova Pro
(Personalización del modelo) Suma de los tokens de implementación de modelos personalizados bajo demanda por día para Meta Llama 3.3 70B Instruct	Cada región admitida: 432 000 000	No	La suma de las entradas y salidas de los tokens de despliegue de modelos personalizados bajo demanda y enviados por día a Converse ConverseStream InvokeModel, y InvokeModelWithResponseStream las acciones de Meta Llama 3.3 70B Instruct
(Personalización del modelo) Suma de los tokens de despliegue de modelos personalizados bajo demanda por minuto para Amazon Nova 2 Lite	Cada región admitida: 4 000 000	No	La suma de los tokens de implementación de modelos personalizados bajo demanda de entrada y salida por minuto enviados a Converse, ConverseStream InvokeModel, y InvokeModelWithResponseStream las acciones para Amazon Nova 2 Lite
(Personalización del modelo) Suma de los tokens de implementación de modelos personalizados bajo demanda por minuto para Amazon Nova Lite	Cada región admitida: 4 000 000	No	La suma de los tokens de implementación de modelos personalizados bajo demanda de entrada y salida por minuto enviados a Converse, ConverseStream InvokeModel, y InvokeModelWithResponseStream las acciones de Amazon Nova Lite
(Personalización del modelo) Suma de los tokens de implementación de modelos personalizados bajo demanda por minuto para Amazon Nova Micro	Cada región admitida: 4 000 000	No	La suma de los tokens de implementación de modelos personalizados bajo demanda de entrada y salida por minuto enviados a Converse, ConverseStream InvokeModel, y InvokeModelWithResponseStream las acciones de Amazon Nova Micro
(Personalización del modelo) Suma de los tokens de implementación de modelos personalizados bajo demanda por minuto para Amazon Nova Pro	Cada región admitida: 800 000	No	La suma de los tokens de implementación de modelos personalizados bajo demanda de entrada y salida por minuto enviados a Converse, ConverseStream InvokeModel, y InvokeModelWithResponseStream las acciones de Amazon Nova Pro
(Personalización del modelo) Suma de los tokens de implementación de modelos personalizados bajo demanda por minuto para Meta Llama 3.3 70B Instruct	Cada región admitida: 300 000	No	La suma de las entradas y salidas de los tokens de despliegue de modelos personalizados bajo demanda por minuto enviados a Converse ConverseStream InvokeModel, y InvokeModelWithResponseStream las acciones de Meta Llama 3.3 70B Instruct
(Personalización del modelo) Suma de los registros de formación y validación de un Fine-tuning trabajo de Amazon Nova 2 Lite	Cada región admitida: 20 000	Sí	El número máximo combinado de registros de formación y validación permitido para un Fine-tuning trabajo de Amazon Nova 2 Lite.
(Personalización del modelo) Suma de los registros de formación y validación de un Fine-tuning trabajo de Amazon Nova Lite	Cada región admitida: 20 000	Sí	El número máximo combinado de registros de formación y validación permitido para un Fine-tuning trabajo de Amazon Nova Lite.
(Personalización del modelo) Suma de los registros de formación y validación de un Fine-tuning trabajo de Amazon Nova Micro	Cada región admitida: 20 000	Sí	El número máximo combinado de registros de formación y validación permitido para un Fine-tuning trabajo de Amazon Nova Micro.
(Personalización del modelo) Suma de los registros de formación y validación de un Fine-tuning trabajo de Amazon Nova Pro	Cada región admitida: 20 000	Sí	El número máximo combinado de registros de formación y validación permitido para un Fine-tuning trabajo de Amazon Nova Pro.
(Personalización del modelo) Suma de los registros de formación y validación de un trabajo de Claude 3 Haiku v1 Fine-tuning	Cada región admitida: 10 000	Sí	El número máximo combinado de registros de formación y validación permitido para un trabajo en Claude 3 Haiku Fine-tuning .
(Personalización del modelo) Suma de los registros de formación y validación de un trabajo con Claude 3-5-Haiku v1 Fine-tuning	Cada región admitida: 10 000	Sí	El número máximo combinado de registros de formación y validación permitido para un trabajo en Claude 3-5-Haiku. Fine-tuning
(Personalización del modelo) Suma de los registros de entrenamiento y validación de un trabajo en Meta Llama 2 13B v1 Fine-tuning	Cada región admitida: 10 000	Sí	El número máximo combinado de registros de capacitación y validación permitido para un trabajo de Meta Llama 2 13B Fine-tuning .
(Personalización del modelo) Suma de los registros de entrenamiento y validación de un trabajo en Meta Llama 2 70B v1 Fine-tuning	Cada región admitida: 10 000	Sí	El número máximo combinado de registros de capacitación y validación permitido para un trabajo de Meta Llama 2 70B Fine-tuning .
(Personalización del modelo) Suma de los registros de entrenamiento y validación de un trabajo de Meta Llama 3.1 70B Instruct v1 Fine-tuning	Cada región admitida: 10 000	Sí	El número máximo combinado de registros de entrenamiento y validación permitido para un trabajo de Meta Llama 3.1 70B Instruct. Fine-tuning
(Personalización del modelo) Suma de los registros de entrenamiento y validación de un trabajo de Meta Llama 3.1 8B Instruct v1 Fine-tuning	Cada región admitida: 10 000	Sí	El número máximo combinado de registros de entrenamiento y validación permitido para un trabajo de Meta Llama 3.1 8B Instruct. Fine-tuning
(Personalización del modelo) Suma de los registros de entrenamiento y validación de un trabajo de Meta Llama 3.2 11B Instruct v1 Fine-tuning	Cada región admitida: 10 000	Sí	El número máximo combinado de registros de entrenamiento y validación permitido para un trabajo de Meta Llama 3.2 11B Instruct. Fine-tuning
(Personalización del modelo) Suma de los registros de entrenamiento y validación de un trabajo de Meta Llama 3.2 1B Instruct v1 Fine-tuning	Cada región admitida: 10 000	Sí	El número máximo combinado de registros de entrenamiento y validación permitido para un trabajo de Meta Llama 3.2 1B Instruct. Fine-tuning
(Personalización del modelo) Suma de los registros de entrenamiento y validación de un trabajo de Meta Llama 3.2 3B Instruct v1 Fine-tuning	Cada región admitida: 10 000	Sí	El número máximo combinado de registros de entrenamiento y validación permitido para un trabajo de Meta Llama 3.2 3B Instruct. Fine-tuning
(Personalización del modelo) Suma de los registros de entrenamiento y validación de un trabajo de Meta Llama 3.2 90B Instruct v1 Fine-tuning	Cada región admitida: 10 000	Sí	El número máximo combinado de registros de entrenamiento y validación permitido para un trabajo de Meta Llama 3.2 90B Instruct. Fine-tuning
(Personalización del modelo) Suma de los registros de entrenamiento y validación de un trabajo de Meta Llama 3.3 70B Instruct v1 Fine-tuning	Cada región admitida: 10 000	Sí	El número máximo combinado de registros de entrenamiento y validación permitido para un trabajo de Meta Llama 3.3 70B Instruct. Fine-tuning
(Personalización del modelo) Suma de los registros de formación y validación de un trabajo en Titan Image Generator G1 V1 Fine-tuning	Cada región admitida: 10 000	Sí	El número máximo combinado de registros de formación y validación permitido para un Fine-tuning trabajo en Titan Image Generator.
(Personalización del modelo) Suma de los registros de formación y validación de un trabajo con Titan Image Generator G1 V2 Fine-tuning	Cada región admitida: 10 000	Sí	El número máximo combinado de registros de formación y validación permitido para un Fine-tuning trabajo en Titan Image Generator V2.
(Personalización del modelo) Suma de los registros de formación y validación de un trabajo en Titan Multimodal Embeddings G1 v1 Fine-tuning	Cada región admitida: 50 000	Sí	El número máximo combinado de registros de formación y validación permitido para un trabajo en Titan Multimodal Embeddings. Fine-tuning
(Personalización del modelo) Suma de los registros de formación y validación de un Titan Text G1 - Express v1 Trabajo continuo Pre-Training	Cada región admitida: 100 000	Sí	El número máximo combinado de registros de formación y validación permitido para un Pre-Training trabajo continuo en Titan Text Express.
(Personalización del modelo) Suma de los registros de formación y validación de un trabajo en Titan Text G1 - Express v1 Fine-tuning	Cada región admitida: 10 000	Sí	El número máximo combinado de registros de formación y validación permitido para un Fine-tuning trabajo en Titan Text Express.
(Personalización del modelo) Suma de los registros de formación y validación de un Titan Text G1 - Lite v1 Trabajo continuo Pre-Training	Cada región admitida: 100 000	Sí	El número máximo combinado de registros de formación y validación permitido para un Pre-Training trabajo continuo en Titan Text Lite.
(Personalización del modelo) Suma de los registros de formación y validación de un trabajo en Titan Text G1 - Lite v1 Fine-tuning	Cada región admitida: 10 000	Sí	El número máximo combinado de registros de formación y validación permitido para un Fine-tuning trabajo en Titan Text Lite.
(Personalización del modelo) Suma de los registros de formación y validación de un trabajo en Titan Text G1 - Premier v1 Fine-tuning	Cada región admitida: 20 000	Sí	El número máximo combinado de registros de formación y validación permitido para un Fine-tuning trabajo en Titan Text Premier.
(Personalización del modelo) Número total de implementaciones de modelos personalizados	Cada región admitida: 10	Sí	Número total de implementaciones de modelos personalizados
(Gestión rápida) de CreatePrompt solicitudes por segundo	Cada región admitida: 2	No	El número máximo de CreatePrompt solicitudes por segundo.
(Gestión rápida) CreatePromptVersion solicitudes por segundo	Cada región admitida: 2	No	El número máximo de CreatePromptVersion solicitudes por segundo.
(Gestión rápida) DeletePrompt solicitudes por segundo	Cada región admitida: 2	No	El número máximo de DeletePrompt solicitudes por segundo.
(Gestión rápida) GetPrompt solicitudes por segundo	Cada región admitida: 10	No	El número máximo de GetPrompt solicitudes por segundo.
(Gestión rápida) ListPrompts solicitudes por segundo	Cada región admitida: 10	No	El número máximo de ListPrompts solicitudes por segundo.
(Gestión de peticiones) Peticiones por cuenta	Cada región admitida: 500	Sí	El número máximo de peticiones.
(Gestión rápida) UpdatePrompt solicitudes por segundo	Cada región admitida: 2	No	El número máximo de UpdatePrompt solicitudes por segundo.
(Gestión de peticiones) Versiones por petición	Cada región admitida: 10	No	El número máximo de versiones por petición.
API por agente	Cada región admitida: 11	Sí	El número máximo de API que puede agregar a un agente
Grupos de acciones por agente	Cada región admitida: 20	Sí	El número máximo de API que puede agregar a un agente
Agente y colaboradores por agente	Cada región admitida: 1000	Sí	El número máximo de API que puede agregar a un agente
Agentes por cuenta	Cada región admitida: 1000	Sí	El número máximo de trabajos en su cuenta.
AssociateAgentKnowledgeBase solicitudes por segundo	Cada región admitida: 6	No	El número máximo de solicitudes de AssociateAgentKnowledgeBase API por segundo.
Alias asociadas por agente	Cada región admitida: 10	No	El número máximo de planes de uso que puede asociar a una clave de API
Bases de conocimiento asociadas por agente	Cada región admitida: 2	Sí	Número máximo de bases de conocimiento que puede asociar a un agente.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Amazon Nova 2 Multimodal Embeddings V1	Cada región admitida: 1	No	El tamaño máximo de un único archivo (en GB) enviado para la inferencia de lotes para Amazon Nova 2 Multimodal Embeddings V1.
Tamaño del archivo de entrada de la inferencia en lotes (en GB) para Amazon Nova Premier	Cada región admitida: 1	No	Tamaño máximo de un archivo (en GB) enviado para la inferencia en lotes para Amazon Nova Premier.
Tamaño del archivo de entrada de inferencia en lotes (en GB) para Claude 3 Haiku	Cada región admitida: 1	No	El tamaño máximo de un único archivo (en GB) enviado para la inferencia en lotes para Claude 3 Haiku.
Tamaño del archivo de entrada de inferencia en lotes (en GB) para Claude 3 Opus	Cada región admitida: 1	No	El tamaño máximo de un único archivo (en GB) enviado para la inferencia en lotes para Claude 3 Opus.
Tamaño del archivo de entrada de inferencia en lotes (en GB) para Claude 3 Sonnet	Cada región admitida: 1	No	El tamaño máximo de un único archivo (en GB) enviado para la inferencia en lotes para Claude 3 Sonnet.
Tamaño del archivo de entrada de inferencia en lotes (en GB) para Claude 3.5 Haiku	Cada región admitida: 1	No	El tamaño máximo de un único archivo (en GB) enviado para la inferencia en lotes para Claude 3.5 Haiku.
Tamaño del archivo de entrada de inferencia en lotes (en GB) para Claude 3.5 Sonnet	Cada región admitida: 1	No	El tamaño máximo de un único archivo (en GB) enviado para la inferencia en lotes para el Sonnet Claude 3.5.
Tamaño del archivo de entrada de inferencia en lotes (en GB) para Claude 3.5 Sonnet v2	Cada región admitida: 1	No	El tamaño máximo de un único archivo (en GB) enviado para la inferencia en lotes para Claude 3.5 Sonnet v2.
Tamaño del archivo de entrada de inferencia en lotes (en GB) para Claude 3.7 Sonnet	Cada región admitida: 1	Sí	El tamaño máximo de un único archivo (en GB) enviado para la inferencia en lotes para el Sonnet Claude 3.7.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Claude Haiku 4.5	Cada región admitida: 1	No	El tamaño máximo de un único archivo (en GB) enviado para la inferencia por lotes para Claude Haiku 4.5.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Claude Opus 4.5	Cada región admitida: 1	No	El tamaño máximo de un único archivo (en GB) enviado para la inferencia por lotes para Claude Opus 4.5.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Claude Opus 4.6	Cada región admitida: 1	No	El tamaño máximo de un único archivo (en GB) enviado para la inferencia por lotes para Claude Opus 4.6.
Tamaño del archivo de entrada de inferencia en lotes (en GB) para Claude Sonnet 4	Cada región admitida: 1	Sí	El tamaño máximo de un único archivo (en GB) enviado para la inferencia en lotes para Claude Sonnet 4.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Claude Sonnet 4.5	Cada región admitida: 1	No	El tamaño máximo de un único archivo (en GB) enviado para la inferencia por lotes para Claude Sonnet 4.5.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Claude Sonnet 4.6	Cada región admitida: 1	No	El tamaño máximo de un único archivo (en GB) enviado para la inferencia por lotes para Claude Sonnet 4.6.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para DeepSeek V3.2	Cada región admitida: 1	No	El tamaño máximo de un único archivo (en GB) enviado para la inferencia por lotes. DeepSeek V3.2
Tamaño del archivo de entrada de inferencia por lotes (en GB) para DeepSeek la versión 3	Cada región admitida: 1	No	El tamaño máximo de un único archivo (en GB) enviado para la inferencia por lotes en la versión 3. DeepSeek
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Devstral 2 123B	Cada región admitida: 1	No	El tamaño máximo de un único archivo (en GB) enviado para la inferencia por lotes para Devstral 2 123B.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para GLM 4.7	Cada región admitida: 1	No	El tamaño máximo de un único archivo (en GB) enviado para la inferencia por lotes para GLM 4.7.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para GLM 4.7 Flash	Cada región admitida: 1	No	El tamaño máximo de un único archivo (en GB) enviado para la inferencia por lotes para GLM 4.7 Flash.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para GLM 5	Cada región admitida: 1	No	El tamaño máximo de un único archivo (en GB) enviado para la inferencia por lotes para GLM 5.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Gemma 3 12B	Cada región admitida: 1	No	El tamaño máximo de un único archivo (en GB) enviado para la inferencia por lotes para Gemma 3 12B.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Gemma 3 27B	Cada región admitida: 1	No	El tamaño máximo de un único archivo (en GB) enviado para la inferencia por lotes para Gemma 3 27B.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Gemma 3 4B	Cada región admitida: 1	No	El tamaño máximo de un único archivo (en GB) enviado para la inferencia por lotes para Gemma 3 4B.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Kimi K2 Thinking	Cada región admitida: 1	No	El tamaño máximo de un único archivo (en GB) enviado para la inferencia por lotes para Kimi K2 Thinking.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Kimi K2.5	Cada región admitida: 1	No	El tamaño máximo de un único archivo (en GB) enviado para la inferencia por lotes para Kimi. K2.5
Tamaño del archivo de entrada de inferencia en lotes (en GB) para Llama 3.1 405B Instruct	Cada región admitida: 1	No	El tamaño máximo de un solo archivo (en GB) enviado para la inferencia en lotes para Llama 3.1 405B Instruct.
Tamaño del archivo de entrada de inferencia en lotes (en GB) para Llama 3.1 70B Instruct	Cada región admitida: 1	No	El tamaño máximo de un solo archivo (en GB) enviado para la inferencia en lotes para Llama 3.1 70B Instruct.
Tamaño del archivo de entrada de inferencia en lotes (en GB) para Llama 3.1 8B Instruct	Cada región admitida: 1	No	El tamaño máximo de un solo archivo (en GB) enviado para la inferencia en lotes para Llama 3.1 8B Instruct.
Tamaño del archivo de entrada de inferencia en lotes (en GB) para Llama 3.2 11B Instruct	Cada región admitida: 1	No	El tamaño máximo de un solo archivo (en GB) enviado para la inferencia en lotes para Llama 3.2 11B Instruct.
Tamaño del archivo de entrada de inferencia en lotes (en GB) para Llama 3.2 1B Instruct	Cada región admitida: 1	No	El tamaño máximo de un único archivo (en GB) enviado para la inferencia en lotes Llama 3.2 1B Instruct.
Tamaño del archivo de entrada de inferencia en lotes (en GB) para Llama 3.2 3B Instruct	Cada región admitida: 1	No	El tamaño máximo de un solo archivo (en GB) enviado para la inferencia en lotes para Llama 3.2 3B Instruct.
Tamaño del archivo de entrada de inferencia en lotes (en GB) para Llama 3.2 90B Instruct	Cada región admitida: 1	No	El tamaño máximo de un solo archivo (en GB) enviado para la inferencia en lotes para Llama 3.2 90B Instruct.
Tamaño del archivo de entrada de inferencia en lotes (en GB) para Llama 3.3 70B Instruct	Cada región admitida: 1	No	El tamaño máximo de un solo archivo (en GB) enviado para la inferencia en lotes para Llama 3.3 70B Instruct.
Tamaño del archivo de entrada de inferencia en lotes (en GB) para Llama 4 Maverick	Cada región admitida: 1	No	El tamaño máximo de un solo archivo (en GB) enviado para la inferencia en lotes para Llama 4 Maverick.
Tamaño del archivo de entrada de inferencia en lotes (en GB) para Llama 4 Scout	Cada región admitida: 1	No	El tamaño máximo de un solo archivo (en GB) enviado para la inferencia en lotes para Llama 4 Scout.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Magistral Small 2509	Cada región admitida: 1	No	El tamaño máximo de un solo archivo (en GB) enviado para su inferencia por lotes para Magistral Small 2509.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para M2 MiniMax	Cada región admitida: 1	No	El tamaño máximo de un único archivo (en GB) enviado para la inferencia por lotes para MiniMax M2.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para MiniMax M2.1	Cada región admitida: 1	No	El tamaño máximo de un único archivo (en GB) enviado para la inferencia por lotes. MiniMax M2.1
Tamaño del archivo de entrada de inferencia por lotes (en GB) para MiniMax M2.5	Cada región admitida: 1	No	El tamaño máximo de un único archivo (en GB) enviado para la inferencia por lotes. MiniMax M2.5
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Ministral 3 14B	Cada región admitida: 1	No	El tamaño máximo de un único archivo (en GB) enviado para su inferencia por lotes para el Ministral 3 14B.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Ministral 3 8B	Cada región admitida: 1	No	El tamaño máximo de un solo archivo (en GB) enviado para su inferencia por lotes para Ministral 3 8B.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Ministral 3B	Cada región admitida: 1	No	El tamaño máximo de un único archivo (en GB) enviado para su inferencia por lotes para el Ministral 3B.
Tamaño del archivo de entrada de inferencia en lotes (en GB) para Mistral Large 2 (24.07)	Cada región admitida: 1	No	El tamaño máximo de un solo archivo (en GB) enviado para la inferencia en lotes para Mistral Large 2 (24.07).
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Mistral Large 3	Cada región admitida: 1	No	El tamaño máximo de un solo archivo (en GB) enviado para la inferencia por lotes para Mistral Large 3.
Tamaño del archivo de entrada de inferencia en lotes (en GB) para Mistral Small	Cada región admitida: 1	No	El tamaño máximo de un solo archivo (en GB) enviado para la inferencia en lotes para Mistral Small.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para NVIDIA Nemotron 3 Super 120B A12B	Cada región admitida: 1	No	El tamaño máximo de un solo archivo (en GB) enviado para la inferencia por lotes para NVIDIA Nemotron 3 Super 120B A12B.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para NVIDIA Nemotron Nano 12B	Cada región admitida: 1	No	El tamaño máximo de un solo archivo (en GB) enviado para la inferencia por lotes para NVIDIA Nemotron Nano 12B.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para NVIDIA Nemotron Nano 3 30B	Cada región admitida: 1	No	El tamaño máximo de un solo archivo (en GB) enviado para la inferencia por lotes para NVIDIA Nemotron Nano 3 30B.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para NVIDIA Nemotron Nano 9B	Cada región admitida: 1	No	El tamaño máximo de un solo archivo (en GB) enviado para la inferencia por lotes para NVIDIA Nemotron Nano 9B.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Nova 2 Lite	Cada región admitida: 1	No	El tamaño máximo de un solo archivo (en GB) enviado para la inferencia por lotes para Nova 2 Lite.
Tamaño del archivo de entrada de inferencia en lotes (en GB) para Nova Lite V1	Cada región admitida: 1	No	El tamaño máximo de un solo archivo (en GB) enviado para la inferencia en lotes para Nova Lite V1.
Tamaño del archivo de entrada de inferencia en lotes (en GB) para Nova Micro V1	Cada región admitida: 1	No	El tamaño máximo de un solo archivo (en GB) enviado para la inferencia en lotes para Nova Micro V1.
Tamaño del archivo de entrada de inferencia en lotes (en GB) para Nova Pro V1	Cada región admitida: 1	No	El tamaño máximo de un solo archivo (en GB) enviado para la inferencia en lotes para Nova Pro V1.
Tamaño del archivo de entrada de inferencia en lotes (en GB) para OpenAI GPT OSS 120b	Cada región admitida: 1	No	El tamaño máximo de un único archivo (en GB) enviado para la inferencia en lotes para OpenAI GPT OSS 120b.
Tamaño del archivo de entrada de inferencia en lotes (en GB) para OpenAI GPT OSS 20b	Cada región admitida: 1	No	El tamaño máximo de un único archivo (en GB) enviado para la inferencia en lotes para OpenAI GPT OSS 20b.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para OpenAI GPT OSS Safeguard 120b	Cada región admitida: 1	No	El tamaño máximo de un solo archivo (en GB) enviado para la inferencia por lotes para OpenAI GPT OSS Safeguard 120b.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para OpenAI GPT OSS Safeguard 20b	Cada región admitida: 1	No	El tamaño máximo de un solo archivo (en GB) enviado para la inferencia por lotes para OpenAI GPT OSS Safeguard 20b.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Qwen3 235B	Cada región admitida: 1	No	El tamaño máximo de un único archivo (en GB) enviado para la inferencia en lotes para Qwen3 235B.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Qwen3 32B	Cada región admitida: 1	No	El tamaño máximo de un único archivo (en GB) enviado para la inferencia en lotes para Qwen3 32B.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Qwen3 Coder 30B	Cada región admitida: 1	No	El tamaño máximo de un único archivo (en GB) enviado para la inferencia en lotes para Qwen3 Coder 30B.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Qwen3 Coder 480B	Cada región admitida: 1	No	El tamaño máximo de un único archivo (en GB) enviado para la inferencia en lotes para Qwen3 Coder 480B.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Qwen3 Coder Next	Cada región admitida: 1	No	El tamaño máximo de un único archivo (en GB) enviado para la inferencia por lotes para Qwen3 Coder Next.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Qwen3 Next 80B	Cada región admitida: 1	No	El tamaño máximo de un solo archivo (en GB) enviado para la inferencia por lotes para Qwen3 Next 80B.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Qwen3 VL 235B	Cada región admitida: 1	No	El tamaño máximo de un solo archivo (en GB) enviado para la inferencia por lotes para el Qwen3 VL 235B.
Tamaño del archivo de entrada de inferencia en lotes (en GB) para Titan Multimodal Embeddings G1	Cada región admitida: 1	No	El tamaño máximo de un único archivo (en GB) enviado para la inferencia en lotes para Titan Multimodal Embeddings G1.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Titan Text Embeddings V2	Cada región admitida: 1	No	El tamaño máximo de un único archivo (en GB) enviado para su inferencia en lotes para Titan Text Embeddings V2.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Voxtral Mini 3B 2507	Cada región admitida: 1	No	El tamaño máximo de un único archivo (en GB) enviado para su inferencia por lotes para el Voxtral Mini 3B 2507.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Voxtral Small 24B 2507	Cada región admitida: 1	No	El tamaño máximo de un solo archivo (en GB) enviado para su inferencia por lotes para Voxtral Small 24B 2507.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Writer Palmyra Vision 7B	Cada región admitida: 1	No	El tamaño máximo de un único archivo (en GB) enviado para la inferencia por lotes para Writer Palmyra Vision 7B.
Tamaño del trabajo de inferencia por lotes (en GB) para Qwen3 Next 80B	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de Qwen3 Next 80B.
Tamaño del trabajo de inferencia por lotes (en GB) para Amazon Nova 2 Multimodal Embeddings V1	Cada región admitida: 100	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de Amazon Nova 2 Multimodal Embeddings V1.
Tamaño del trabajo de inferencia en lotes (en GB) para Amazon Nova Premier	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Amazon Nova Premier.
Tamaño del trabajo de inferencia en lotes (en GB) para Claude 3 Haiku	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Claude 3 Haiku.
Tamaño del trabajo de inferencia en lotes (en GB) para Claude 3 Opus	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Claude 3 Opus.
Tamaño del trabajo de inferencia en lotes (en GB) para Claude 3 Sonnet	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Claude 3 Sonnet.
Tamaño del trabajo de inferencia en lotes (en GB) para Claude 3.5 Haiku	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Claude 3.5 Haiku.
Tamaño del trabajo de inferencia en lotes (en GB) para Claude 3.5 Sonnet	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Claude 3.5 Sonnet.
Tamaño del trabajo de inferencia en lotes (en GB) para Claude 3.5 Sonnet v2	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Claude 3.5 Sonnet v2.
Tamaño del trabajo de inferencia en lotes (en GB) para Claude 3.7 Sonnet	Cada región admitida: 5	Sí	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Claude 3.7 Sonnet.
Tamaño del trabajo de inferencia por lotes (en GB) para Claude Haiku 4.5	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de Claude Haiku 4.5.
Tamaño del trabajo de inferencia por lotes (en GB) para Claude Opus 4.5	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de Claude Opus 4.5.
Tamaño del trabajo de inferencia por lotes (en GB) para Claude Opus 4.6	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de Claude Opus 4.6.
Tamaño del trabajo de inferencia en lotes (en GB) para Claude Sonnet 4	Cada región admitida: 5	Sí	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Claude Sonnet 4.
Tamaño del trabajo de inferencia por lotes (en GB) para Claude Sonnet 4.5	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de Claude Sonnet 4.5.
Tamaño del trabajo de inferencia por lotes (en GB) para Claude Sonnet 4.6	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de Claude Sonnet 4.6.
Tamaño del trabajo de inferencia por lotes (en GB) para DeepSeek V3.2	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes para. DeepSeek V3.2
Tamaño del trabajo de inferencia por lotes (en GB) para DeepSeek la versión 3	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de la versión 3. DeepSeek
Tamaño del trabajo de inferencia por lotes (en GB) para Devstral 2 123B	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de Devstral 2 123B.
Tamaño del trabajo de inferencia por lotes (en GB) para GLM 4.7	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de GLM 4.7.
Tamaño del trabajo de inferencia por lotes (en GB) para GLM 4.7 Flash	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de GLM 4.7 Flash.
Tamaño del trabajo de inferencia por lotes (en GB) para GLM 5	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de GLM 5.
Tamaño del trabajo de inferencia por lotes (en GB) para Gemma 3 12B	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de Gemma 3 12B.
Tamaño del trabajo de inferencia por lotes (en GB) para Gemma 3 27B	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de Gemma 3 27B.
Tamaño del trabajo de inferencia por lotes (en GB) para Gemma 3 4B	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de Gemma 3 4B.
Tamaño del trabajo de inferencia por lotes (en GB) para Kimi K2 Thinking	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de Kimi K2 Thinking.
Tamaño del trabajo de inferencia por lotes (en GB) para Kimi K2.5	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de Kimi. K2.5
Tamaño del trabajo de inferencia en lotes (en GB) para Llama 3.1 405B Instruct	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Llama 3.1 405B Instruct.
Tamaño del trabajo de inferencia en lotes (en GB) para Llama 3.1 70B Instruct	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Llama 3.1 70B Instruct.
Tamaño del trabajo de inferencia en lotes (en GB) para Llama 3.1 8B Instruct	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Llama 3.1 8B Instruct.
Tamaño del trabajo de inferencia en lotes (en GB) para Llama 3.2 11B Instruct	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Llama 3.2 11B Instruct.
Tamaño del trabajo de inferencia en lotes (en GB) para Llama 3.2 1B Instruct	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Llama 3.2 1B Instruct.
Tamaño del trabajo de inferencia en lotes (en GB) para Llama 3.2 3B Instruct	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Llama 3.2 3B Instruct.
Tamaño del trabajo de inferencia en lotes (en GB) para Llama 3.2 90B Instruct	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Llama 3.2 90B Instruct.
Tamaño del trabajo de inferencia en lotes (en GB) para Llama 3.3 70B Instruct	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Llama 3.3 70B Instruct.
Tamaño del trabajo de inferencia en lotes (en GB) para Llama 4 Maverick	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Llama 4 Maverick.
Tamaño del trabajo de inferencia en lotes (en GB) para Llama 4 Scout	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Llama 4 Scout.
Tamaño del trabajo de inferencia por lotes (en GB) para Magistral Small 2509	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de Magistral Small 2509.
Tamaño del trabajo de inferencia por lotes (en GB) para M2 MiniMax	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de M2. MiniMax
Tamaño del trabajo de inferencia por lotes (en GB) para MiniMax M2.1	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes para. MiniMax M2.1
Tamaño del trabajo de inferencia por lotes (en GB) para MiniMax M2.5	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes para. MiniMax M2.5
Tamaño del trabajo de inferencia por lotes (en GB) para Ministral 3 14B	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de Ministral 3 14B.
Tamaño del trabajo de inferencia por lotes (en GB) para Ministral 3 8B	Cada región admitida: 5	No	El tamaño acumulado máximo de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de Ministral 3 8B.
Tamaño del trabajo de inferencia por lotes (en GB) para Ministral 3B	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de Ministral 3B.
Tamaño del trabajo de inferencia en lotes (en GB) para Mistral Large 2 (24.07)	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Mistral Large 2 (24.07).
Tamaño del trabajo de inferencia por lotes (en GB) para Mistral Large 3	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de Mistral Large 3.
Tamaño del trabajo de inferencia en lotes (en GB) para Mistral Small	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Mistral Small.
Tamaño del trabajo de inferencia por lotes (en GB) para NVIDIA Nemotron 3 Super 120B A12B	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de NVIDIA Nemotron 3 Super 120B A12B.
Tamaño del trabajo de inferencia por lotes (en GB) para NVIDIA Nemotron Nano 12B	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de NVIDIA Nemotron Nano 12B.
Tamaño del trabajo de inferencia por lotes (en GB) para NVIDIA Nemotron Nano 3 30B	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de NVIDIA Nemotron Nano 3 30B.
Tamaño del trabajo de inferencia por lotes (en GB) para NVIDIA Nemotron Nano 9B	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de NVIDIA Nemotron Nano 9B.
Tamaño del trabajo de inferencia en lotes (en GB) para Nova Lite V1	Cada región admitida: 100	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Nova Lite V1.
Tamaño del trabajo de inferencia en lotes (en GB) para Nova Micro V1	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Nova Micro V1.
Tamaño del trabajo de inferencia en lotes (en GB) para Nova Pro V1	Cada región admitida: 100	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Nova Pro V1.
Tamaño del trabajo de inferencia en lotes (en GB) para OpenAI GPT OSS 120b	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes para OpenAI GPT OSS 120b.
Tamaño del trabajo de inferencia en lotes (en GB) para OpenAI GPT OSS 20b	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes para OpenAI GPT OSS 20b.
Tamaño del trabajo de inferencia por lotes (en GB) para OpenAI GPT OSS Safeguard 120b	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes para OpenAI GPT OSS Safeguard 120b.
Tamaño del trabajo de inferencia por lotes (en GB) para OpenAI GPT OSS Safeguard 20b	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes para OpenAI GPT OSS Safeguard 20b.
Tamaño del trabajo de inferencia por lotes (en GB) para Qwen3 235B	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes para Qwen3 235B.
Tamaño del trabajo de inferencia por lotes (en GB) para Qwen3 32B	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes para Qwen3 32B.
Tamaño del trabajo de inferencia por lotes (en GB) para Qwen3 Coder 30B	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Qwen3 Coder 30B.
Tamaño del trabajo de inferencia por lotes (en GB) para Qwen3 Coder 480B	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Qwen3 Coder 480B.
Tamaño del trabajo de inferencia por lotes (en GB) para Qwen3 Coder Next	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de Qwen3 Coder Next.
Tamaño del trabajo de inferencia por lotes (en GB) para Qwen3 VL 235B	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de Qwen3 VL 235B.
Tamaño del trabajo de inferencia en lotes (en GB) para Titan Multimodal Embeddings G1	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Titan Multimodal Embeddings G1.
Tamaño del trabajo de inferencia por lotes (en GB) para Titan Text Embeddings V2	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Titan Text Embeddings V2.
Tamaño del trabajo de inferencia por lotes (en GB) para Voxtral Mini 3B 2507	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de Voxtral Mini 3B 2507.
Tamaño del trabajo de inferencia por lotes (en GB) para Voxtral Small 24B 2507	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de Voxtral Small 24B 2507.
Tamaño del trabajo de inferencia por lotes (en GB) para Writer Palmyra Vision 7B	Cada región admitida: 5	No	El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de Writer Palmyra Vision 7B.
Caracteres en las instrucciones del agente	Cada región admitida: 20 000	No	El número máximo de caracteres en las instrucciones para un agente.
Trabajos de importación de modelos simultáneos	Cada región admitida: 1	No	El número máximo de trabajos de importación de modelos que están en curso simultáneamente.
CreateAgent solicitudes por segundo	Cada región admitida: 6	No	El número máximo de solicitudes de CreateAgent API por segundo.
CreateAgentActionGroup solicitudes por segundo	Cada región admitida: 12	No	El número máximo de solicitudes de CreateAgentActionGroup API por segundo.
CreateAgentAlias solicitudes por segundo	Cada región admitida: 2	No	El número máximo de solicitudes de CreateAgentAlias API por segundo.
Cross-Region modele las solicitudes de inferencia por minuto para Anthropic Claude 3.5 Haiku	Cada región admitida: 2000	No	El número máximo de veces que puedes llamar InvokeModel y InvokeModelWithResponseStream en un minuto. La cuota tiene en cuenta la suma combinada de InvokeModelWithResponseStream fichas InvokeModel y fichas de Anthropic Claude 3.5 Haiku.
Cross-Region modele las solicitudes de inferencia por minuto para Anthropic Claude 3.5 Sonnet V2	us-west-2: 500 Cada una de las demás regiones compatibles: 100	No	El número máximo de veces que se puede realizar una inferencia de modelos en un minuto para el Sonnet V2 de Anthropic Claude 3.5. La cuota considera la suma combinada de Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Cross-Region modele las fichas de inferencia por minuto para Anthropic Claude 3.5 Haiku	Cada región admitida: 4 000 000	Sí	La cantidad máxima de tokens bajo demanda que puede enviar para la inferencia del modelo en un minuto. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse InvokeModel y ConverseStream, en el caso de Anthropic Claude 3.5 InvokeModelWithResponseStream Haiku.
Cross-Region modele los símbolos de inferencia por minuto para Anthropic Claude 3.5 Sonnet V2	us-west-2: 4 000 000 Cada una de las demás regiones compatibles: 800 000	Sí	El número máximo de tokens que puede enviar para la inferencia del modelo para Anthropic Claude 3.5 Sonnet V2 en un minuto. La cuota considera la suma combinada de Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Cross-region solicitudes de inferencia de modelos por minuto para Amazon Nova 2 Lite	Cada región admitida: 2000	No	El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Amazon Nova 2 Lite. Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
Cross-region solicitudes de inferencia de modelos por minuto para Amazon Nova 2 Omni	Cada región admitida: 2000	No	El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Amazon Nova 2 Omni. Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
Cross-region solicitudes de inferencia de modelos por minuto para Amazon Nova 2 Pro Preview	Cada región admitida: 100	No	El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Amazon Nova 2 Pro Preview. Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
Cross-region solicitudes de inferencia de modelos por minuto para Amazon Nova Lite	us-east-1:4.000 us-east-2:4.000 us-west-1:4.000 us-west-2:4.000 Cada una de las demás regiones compatibles: 400	No	El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Amazon Nova Lite. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Cross-region solicitudes de inferencia de modelos por minuto para Amazon Nova Micro	us-east-1:4.000 us-east-2:4.000 us-west-2:4.000 Cada una de las demás regiones compatibles: 400	No	El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Amazon Nova Micro. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Cross-region solicitudes de inferencia de modelos por minuto para Amazon Nova Premier V1	Cada región admitida: 500	No	El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Amazon Nova Premier V1. Esta cuota representa el número total de solicitudes a Converse InvokeModel y InvokeModelWithResponseStream de ConverseStream acciones.
Cross-region solicitudes de inferencia de modelos por minuto para Amazon Nova Pro	Cada región admitida: 500	No	El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Amazon Nova Pro. Esta cuota representa el número total de solicitudes a Converse InvokeModel y InvokeModelWithResponseStream de ConverseStream acciones.
Cross-region modela las solicitudes de inferencia por minuto para Anthropic Claude 3 Haiku	us-east-1: 2000 us-west-2: 2000 ap-northeast-1:400 ap-southeast-1:400 Cada una de las demás regiones compatibles: 800	No	El número máximo de veces que puede realizar una llamada a la inferencia de modelos en un minuto. La cuota considera la suma combinada de Converse y, en el caso de Anthropic ConverseStream, Claude 3 InvokeModel Haiku InvokeModelWithResponseStream .
Cross-region modela las solicitudes de inferencia por minuto para Anthropic Claude 3 Opus	Cada región admitida: 100	No	El número máximo de solicitudes entre regiones que se pueden enviar para la inferencia de modelos en un minuto para Anthropic Claude 3 Opus. Esta cuota representa el número total de solicitudes a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
Cross-region modele las solicitudes de inferencia por minuto para Anthropic Claude 3 Sonnet	us-east-1: 1000 us-west-2: 1000 Cada una de las demás regiones compatibles: 200	No	El número máximo de veces que puede realizar una llamada a la inferencia de modelos en un minuto. La cuota considera la suma combinada de Converse InvokeModel y Anthropic ConverseStream Claude 3 InvokeModelWithResponseStream Sonnet.
Cross-region modele las solicitudes de inferencia por minuto para Anthropic Claude 3.5 Sonnet	us-west-2: 500 ap-northeast-1:40 ap-southeast-1:40 eu-central-1:40 eu-west-1:40 eu-west-3:40 Cada una de las demás regiones compatibles: 100	No	El número máximo de veces que se puede realizar una inferencia de modelos en un minuto para el Soneto Anthropic Claude 3.5. La cuota considera la suma combinada de Converse,, y ConverseStream. InvokeModel InvokeModelWithResponseStream
Cross-region modele las solicitudes de inferencia por minuto para Anthropic Claude 3.7 Sonnet V1	us-east-1:250 us-east-2:250 us-west-2:250 eu-central-1:100 eu-north-1:100 eu-west-1:100 eu-west-3:100 Cada una de las demás regiones admitidas: 50	No	El número máximo de solicitudes entre regiones que se pueden enviar para la inferencia de modelos en un minuto para el Sonnet V1 de Anthropic Claude 3.7. Esta cuota representa el número total de solicitudes y acciones dirigidas a The Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
Cross-region modele las solicitudes de inferencia por minuto para Anthropic Claude Haiku 4.5	Cada región admitida: 10 000	Sí	El número máximo de solicitudes entre regiones que se pueden enviar para la inferencia de modelos en un minuto para Anthropic Claude Haiku 4.5. Esta cuota representa el número total de solicitudes a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
Cross-region modele las solicitudes de inferencia por minuto para Anthropic Claude Opus 4 V1	Cada región admitida: 200	No	El número máximo de solicitudes entre regiones que se pueden enviar para la inferencia de modelos en un minuto para Anthropic Claude Opus 4 V1. Esta cuota representa el número total de solicitudes a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
Cross-region modele las solicitudes de inferencia por minuto para Anthropic Claude Opus 4.1	Cada región admitida: 50	No	El número máximo de solicitudes entre regiones que se pueden enviar para la inferencia de modelos en un minuto para Anthropic Claude Opus 4.1. Esta cuota representa el número total de solicitudes a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
Cross-region modele las solicitudes de inferencia por minuto para Anthropic Claude Opus 4.5	Cada región admitida: 10 000	Sí	El número máximo de solicitudes interregionales que se pueden enviar para la inferencia de modelos en un minuto para Anthropic Claude Opus 4.5. Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
Cross-region modele las solicitudes de inferencia por minuto para Anthropic Claude Opus 4.6 V1	Cada región admitida: 10 000	Sí	El número máximo de solicitudes interregionales que se pueden enviar para la inferencia de modelos en un minuto para Anthropic Claude Opus 4.6 V1. Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
Cross-region modele las solicitudes de inferencia por minuto para Anthropic Claude Sonnet 4 V1	Cada región admitida: 200	Sí	El número máximo de solicitudes entre regiones que se pueden enviar para la inferencia de modelos en un minuto para Anthropic Claude Sonnet 4 V1. Esta cuota representa el número total de solicitudes a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
Cross-region modele solicitudes de inferencia por minuto para Anthropic Claude Sonnet 4 V1, 1 M de longitud de contexto	Cada región admitida: 5	Sí	El número máximo de solicitudes interregionales que puede enviar para la inferencia de modelos en un minuto para Anthropic Claude Sonnet 4 V1 con longitud de contexto de 1 millón. Esta cuota representa el número total de solicitudes a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
Cross-region modele las solicitudes de inferencia por minuto para Anthropic Claude Sonnet 4.5 V1	Cada región admitida: 10 000	Sí	El número máximo de solicitudes entre regiones que se pueden enviar para la inferencia del modelo en un minuto para Anthropic Claude Sonnet 4.5 V1. Esta cuota representa el número total de solicitudes a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
Cross-region modele solicitudes de inferencia por minuto para Anthropic Claude Sonnet 4.5 V1 (1 M de longitud de contexto)	Cada región admitida: 1000	Sí	El número máximo de solicitudes interregionales que puede enviar para la inferencia de modelos en un minuto para Anthropic Claude Sonnet 4.5 V1 con longitud de contexto de 1 millón. Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
Cross-region modele las solicitudes de inferencia por minuto para Anthropic Claude Sonnet 4.6	Cada región admitida: 10 000	Sí	El número máximo de solicitudes interregionales que se pueden enviar para la inferencia de modelos en un minuto para Anthropic Claude Sonnet 4.6. Esta cuota representa el número total de solicitudes enviadas a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
Cross-region modele las solicitudes de inferencia por minuto para Cohere Embed V4	Cada región admitida: 2000	No	El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Cohere Embed V4. Esta cuota representa el número total de solicitudes a Converse y a las acciones ConverseStream. InvokeModel InvokeModelWithResponseStream
Cross-region modele las solicitudes de inferencia por minuto para DeepSeek R1 V1	Cada región admitida: 200	No	El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para DeepSeek el R1 V1. Esta cuota representa el número total de solicitudes y acciones dirigidas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
Cross-region modele las solicitudes de inferencia por minuto para Meta Llama 3.1 405B Instruct	Cada región admitida: 400	No	El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Meta Llama 3.1 405B Instruct. Esta cuota representa el número total de solicitudes a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
Cross-region modele las solicitudes de inferencia por minuto para Meta Llama 3.1 70B Instruct	Cada región admitida: 800	No	El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Meta Llama 3.1 70B Instruct. Esta cuota representa el número total de solicitudes a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
Cross-region modele las solicitudes de inferencia por minuto para Meta Llama 3.1 8B Instruct	Cada región admitida: 1600	No	El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Meta Llama 3.1 8B Instruct. Esta cuota representa el número total de solicitudes a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
Cross-region modele las solicitudes de inferencia por minuto para Meta Llama 3.2 1B Instruct	Cada región admitida: 1600	No	El número máximo de solicitudes entre regiones que se pueden enviar para la inferencia de modelos en un minuto para Meta Llama 3.2 1B Instruct. Esta cuota representa el número total de solicitudes a Converse y de acciones ConverseStream. InvokeModel InvokeModelWithResponseStream
Cross-region modele las solicitudes de inferencia por minuto para Meta Llama 3.2 3B Instruct	Cada región admitida: 1600	No	El número máximo de veces que puede realizar una llamada a la inferencia de modelos en un minuto para Meta Llama 3.2 3B Instruct. La cuota considera la suma combinada de las solicitudes de InvokeModel, InvokeModelWithResponseStream, Converse y. ConverseStream
Cross-region modele las solicitudes de inferencia por minuto para Meta Llama 3.3 70B Instruct	Cada región admitida: 800	No	El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Meta Llama 3.3 70B Instruct. Esta cuota representa el número total de solicitudes a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
Cross-region modele las solicitudes de inferencia por minuto para Meta Llama 4 Maverick V1	Cada región admitida: 800	No	El número máximo de solicitudes entre regiones que se pueden enviar para la inferencia de modelos en un minuto para Meta Llama 4 Maverick V1. Esta cuota representa el número total de solicitudes a Converse y de acciones ConverseStream. InvokeModel InvokeModelWithResponseStream
Cross-region modele las solicitudes de inferencia por minuto para Meta Llama 4 Scout V1	Cada región admitida: 800	No	El número máximo de solicitudes entre regiones que puedes enviar para la inferencia de modelos en un minuto para Meta Llama 4 Scout V1. Esta cuota representa el número total de solicitudes a Converse y de acciones ConverseStream. InvokeModel InvokeModelWithResponseStream
Cross-region modele las solicitudes de inferencia por minuto para Mistral Pixtral Large 25.02 V1	Cada región admitida: 10	No	El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Mistral Pixtral Large 25.02 V1. Esta cuota representa el número total de solicitudes a Converse y a las acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
Cross-region modele las solicitudes de inferencia por minuto para Stable Image Conservative Upscale	Cada región admitida: 4	No	El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Stable Image Conservative Upscale. Esta cuota representa el número total de solicitudes a Converse y de acciones ConverseStream. InvokeModel InvokeModelWithResponseStream
Cross-region modele las solicitudes de inferencia por minuto para Stable Image Control Sketch	Cada región admitida: 20	No	El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Stable Image Control Sketch. Esta cuota representa el número total de solicitudes a Converse InvokeModel y InvokeModelWithResponseStream a las ConverseStream acciones.
Cross-region modele las solicitudes de inferencia por minuto para una estructura de control de imagen estable	Cada región admitida: 20	No	El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Stable Image Control Structure. Esta cuota representa el número total de solicitudes a Converse InvokeModel y InvokeModelWithResponseStream a las ConverseStream acciones.
Cross-region modele las solicitudes de inferencia por minuto para Stable Image Creative Upscale	Cada región admitida: 4	No	El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Stable Image Creative Upscale. Esta cuota representa el número total de solicitudes a Converse y de acciones ConverseStream. InvokeModel InvokeModelWithResponseStream
Cross-region modele las solicitudes de inferencia por minuto para el objeto Stable Image Erase	Cada región admitida: 20	No	El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Stable Image Erase Object. Esta cuota representa el número total de solicitudes a Converse InvokeModel y InvokeModelWithResponseStream a las ConverseStream acciones.
Cross-region modele las solicitudes de inferencia por minuto para Stable Image Fast Upscale	Cada región admitida: 20	No	El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Stable Image Fast Upscale. Esta cuota representa el número total de solicitudes a Converse y de acciones ConverseStream. InvokeModel InvokeModelWithResponseStream
Cross-region modele las solicitudes de inferencia por minuto para Stable Image Inpaint	Cada región admitida: 20	No	El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Stable Image Inpaint. Esta cuota representa el número total de solicitudes a Converse y a las acciones ConverseStream. InvokeModel InvokeModelWithResponseStream
Cross-region modele las solicitudes de inferencia por minuto para Stable Image Outpaint	Cada región admitida: 4	No	El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Stable Image Outpaint. Esta cuota representa el número total de solicitudes a Converse y a las acciones ConverseStream. InvokeModel InvokeModelWithResponseStream
Cross-region modele las solicitudes de inferencia por minuto para Stable Image Remove Background	Cada región admitida: 20	No	El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Stable Image Remove Background. Esta cuota representa el número total de solicitudes a Converse InvokeModel y InvokeModelWithResponseStream a las ConverseStream acciones.
Cross-region modele las solicitudes de inferencia por minuto para Stable Image Search y Recolor	Cada región admitida: 20	No	El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Stable Image Search and Recolor. Esta cuota representa el número total de solicitudes a Converse y de acciones ConverseStream. InvokeModel InvokeModelWithResponseStream
Cross-region modele las solicitudes de inferencia por minuto para Stable Image Search and Replace	Cada región admitida: 20	No	El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Stable Image Search and Replace. Esta cuota representa el número total de solicitudes a Converse InvokeModel y InvokeModelWithResponseStream de ConverseStream acciones.
Cross-region modele las solicitudes de inferencia por minuto para Stable Image Style Guide	Cada región admitida: 20	No	El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Stable Image Style Guide. Esta cuota representa el número total de solicitudes a Converse InvokeModel y InvokeModelWithResponseStream de ConverseStream acciones.
Cross-region modele las solicitudes de inferencia por minuto para Stable Image Style Transfer	Cada región admitida: 20	No	El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para la transferencia de estilos de imagen estable. Esta cuota representa el número total de solicitudes a Converse InvokeModel y InvokeModelWithResponseStream de ConverseStream acciones.
Cross-region modele las solicitudes de inferencia por minuto para Twelve Labs Marengo	Cada región admitida: 200	No	El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Twelve Labs Marengo. Esta cuota representa el número total de solicitudes a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
Cross-region modele las solicitudes de inferencia por minuto para Twelve Labs Pegasus	Cada región admitida: 120	Sí	El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Twelve Labs Pegasus. La cuota considera la suma combinada de Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Cross-region modele las solicitudes de inferencia por minuto para TwelveLabs Marengo Embed 3.0	Cada región admitida: 1000	Sí	El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Marengo Embed 3.0. TwelveLabs Esta cuota representa el número total de solicitudes a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
Cross-region modele las solicitudes de inferencia por minuto para Writer AI Palmyra X4 V1	Cada región admitida: 10	No	El número máximo de solicitudes entre regiones que se pueden enviar para la inferencia de modelos en un minuto para Writer AI Palmyra X4 V1. Esta cuota representa el número total de solicitudes a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
Cross-region modele las solicitudes de inferencia por minuto para Writer AI Palmyra X5 V1	Cada región admitida: 10	No	El número máximo de solicitudes entre regiones que se pueden enviar para la inferencia de modelos en un minuto para Writer AI Palmyra X5 V1. Esta cuota representa el número total de solicitudes a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
Cross-region fichas de inferencia de modelos por minuto para Amazon Nova 2 Lite	Cada región compatible: 8 000 000	Sí	El número máximo de tokens entre regiones que puede enviar para la inferencia de modelos en un minuto para Amazon Nova 2 Lite. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, ConverseStream y. InvokeModel InvokeModelWithResponseStream
Cross-region token de inferencia de modelos por minuto para Amazon Nova 2 Omni	Cada región compatible: 8 000 000	Sí	El número máximo de tokens entre regiones que puede enviar para la inferencia de modelos en un minuto para Amazon Nova 2 Omni. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Cross-region fichas de inferencia de modelos por minuto para Amazon Nova 2 Pro Preview	Cada región admitida: 1 000 000	Sí	El número máximo de tokens entre regiones que puede enviar para la inferencia de modelos en un minuto para Amazon Nova 2 Pro Preview. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, ConverseStream y. InvokeModel InvokeModelWithResponseStream
Cross-region fichas de inferencia de modelos por minuto para Amazon Nova Lite	us-east-1: 8 000 000 us-east-2: 8 000 000 us-west-1: 8 000 000 us-west-2: 8 000 000 Cada una de las demás regiones compatibles: 400 000	Sí	El número máximo de tokens entre regiones que puede enviar para la inferencia de modelos en un minuto para Amazon Nova Lite. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y InvokeModelWithResponseStream.
Cross-region fichas de inferencia de modelos por minuto para Amazon Nova Micro	us-east-1: 8 000 000 us-east-2: 8 000 000 us-west-2: 8 000 000 Cada una de las demás regiones compatibles: 400 000	Sí	El número máximo de tokens entre regiones que puede enviar para la inferencia de modelos en un minuto para Amazon Nova Micro. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y InvokeModelWithResponseStream.
Cross-region token de inferencia de modelos por minuto para Amazon Nova Premier V1	Cada región admitida: 2 000 000	Sí	El número máximo de tokens entre regiones que puede enviar para la inferencia de modelos en un minuto para Amazon Nova Premier V1. La cuota considera la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Cross-region fichas de inferencia de modelos por minuto para Amazon Nova Pro	Cada región admitida: 2 000 000	Sí	El número máximo de tokens entre regiones que puede enviar para la inferencia de modelos en un minuto para Amazon Nova Pro. La cuota considera la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Cross-region modela las fichas de inferencia por minuto para Anthropic Claude 3 Haiku	us-east-1: 4 000 000 us-west-2: 4 000 000 ap-northeast-1:400.000 ap-southeast-1:400.000 Cada una de las demás regiones compatibles: 600 000	Sí	La cantidad máxima de tokens bajo demanda que puede enviar para la inferencia del modelo en un minuto. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse InvokeModel y ConverseStream InvokeModelWithResponseStream , en el caso de Anthropic Claude 3 Haiku.
Cross-region modela las fichas de inferencia por minuto para Anthropic Claude 3 Opus	Cada región admitida: 800 000	Sí	El número máximo de fichas entre regiones que puedes enviar para la inferencia del modelo en un minuto en el caso de Anthropic Claude 3 Opus. La cuota considera la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Cross-region modele los símbolos de inferencia por minuto para Anthropic Claude 3 Sonnet	us-east-1: 2 000 000 us-west-2: 2 000 000 Cada una de las demás regiones compatibles: 400 000	Sí	La cantidad máxima de tokens bajo demanda que puede enviar para la inferencia del modelo en un minuto. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse InvokeModel y ConverseStream InvokeModelWithResponseStream , en el caso de Anthropic Claude 3 Sonnet.
Cross-region modele los indicadores de inferencia por minuto para Anthropic Claude 3.5 Sonnet	us-west-2: 4 000 000 ap-northeast-1:400.000 ap-southeast-1:400.000 eu-central-1:400 000 eu-west-1:400 000 eu-west-3:400 000 Cada una de las demás regiones apoyadas: 800 000	Sí	El número máximo de tokens que puede enviar para la inferencia del modelo Anthropic Claude 3.5 Sonnet en un minuto. La cuota considera la suma combinada de Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Cross-region modele las fichas de inferencia por minuto para Anthropic Claude 3.7 Sonnet V1	us-east-1: 1 000 000 us-east-2: 1 000 000 us-west-2: 1 000 000 eu-central-1:100 000 eu-north-1:100 000 eu-west-1:100 000 eu-west-3:100 000 Cada una de las demás regiones compatibles: 50 000	Sí	El número máximo de fichas entre regiones que puede enviar para la inferencia del modelo en un minuto para el Sonnet V1 de Anthropic Claude 3.7. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, ConverseStream y. InvokeModel InvokeModelWithResponseStream
Cross-region modela las fichas de inferencia por minuto para Anthropic Claude Fable 5	Cada región admitida: 200 000	Sí	El número máximo de fichas entre regiones que puedes enviar para la inferencia de modelos en un minuto para Anthropic Claude Fable 5. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Cross-region modela las fichas de inferencia por minuto para Anthropic Claude Haiku 4.5	Cada región admitida: 5 000 000	Sí	El número máximo de fichas entre regiones que puedes enviar para la inferencia del modelo en un minuto para Anthropic Claude Haiku 4.5. La cuota considera la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Cross-region modela las fichas de inferencia por minuto para Anthropic Claude Opus 4 V1	Cada región admitida: 200 000	Sí	El número máximo de fichas entre regiones que puedes enviar para la inferencia del modelo en un minuto para Anthropic Claude Opus 4 V1. La cuota considera la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Cross-region modela las fichas de inferencia por minuto para Anthropic Claude Opus 4.1	Cada región admitida: 500 000	Sí	El número máximo de fichas entre regiones que puedes enviar para la inferencia del modelo en un minuto para Anthropic Claude Opus 4.1. La cuota considera la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Cross-region modela las fichas de inferencia por minuto para Anthropic Claude Opus 4.5	Cada región admitida: 2 000 000	Sí	El número máximo de fichas entre regiones que puedes enviar para la inferencia del modelo en un minuto para Anthropic Claude Opus 4.5. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Cross-region modele las fichas de inferencia por minuto para Anthropic Claude Opus 4.6 V1	Cada región admitida: 3 000 000	Sí	El número máximo de fichas entre regiones que puedes enviar para la inferencia de modelos en un minuto para Anthropic Claude Opus 4.6 V1. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Cross-region modela las fichas de inferencia por minuto para Anthropic Claude Opus 4.7	Cada región admitida: 10 000 000	Sí	El número máximo de fichas entre regiones que puedes enviar para la inferencia del modelo en un minuto para Anthropic Claude Opus 4.7. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Cross-region modela las fichas de inferencia por minuto para Anthropic Claude Opus 4.8	Cada región compatible: 30 000 000	Sí	El número máximo de fichas entre regiones que puedes enviar para la inferencia de modelos en un minuto para Anthropic Claude Opus 4.8. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Cross-region modele los símbolos de inferencia por minuto para Anthropic Claude Sonnet 4 V1	Cada región admitida: 200 000	Sí	El número máximo de fichas entre regiones que puede enviar para la inferencia del modelo en un minuto para Anthropic Claude Sonnet 4 V1. La cuota considera la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Cross-region modele fichas de inferencia por minuto para Anthropic Claude Sonnet 4 V1, 1 M de longitud de contexto	Cada región admitida: 1 000 000	Sí	El número máximo de tokens entre regiones que puede enviar para la inferencia del modelo en un minuto para Anthropic Claude Sonnet 4 V1 con longitud de contexto de 1 millón. La cuota considera la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Cross-region modele los símbolos de inferencia por minuto para Anthropic Claude Sonnet 4.5 V1	Cada región admitida: 5 000 000	Sí	El número máximo de fichas entre regiones que puede enviar para la inferencia del modelo en un minuto para Anthropic Claude Sonnet 4.5 V1. La cuota considera la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Cross-region modele los símbolos de inferencia por minuto para Anthropic Claude Sonnet, 4,5 V1, 1 M de longitud de contexto	Cada región admitida: 1 000 000	Sí	El número máximo de tokens entre regiones que puede enviar para la inferencia del modelo en un minuto para Anthropic Claude Sonnet 4.5 V1 con longitud de contexto de 1 millón. La cuota considera la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Cross-region modele los símbolos de inferencia por minuto para Anthropic Claude Sonnet 4.6	Cada región compatible: 6 000 000	Sí	El número máximo de fichas entre regiones que puedes enviar para la inferencia del modelo en un minuto para Anthropic Claude Sonnet 4.6. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Cross-region modele los símbolos de inferencia por minuto para Anthropic Claude Sonnet 5	Cada región compatible: 6 000 000	Sí	El número máximo de fichas entre regiones que puedes enviar para la inferencia de modelos en un minuto para Anthropic Claude Sonnet 5. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Cross-region modele los tokens de inferencia por minuto para Cohere Embed V4	Cada región admitida: 300 000	Sí	El número máximo de fichas entre regiones que puede enviar para la inferencia del modelo en un minuto para Cohere Embed V4. La cuota considera la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, ConverseStream y. InvokeModel InvokeModelWithResponseStream
Cross-region modele los símbolos de inferencia por minuto para DeepSeek R1 V1	Cada región admitida: 200 000	Sí	La cantidad máxima de tokens entre regiones que puede enviar para la inferencia del modelo en un minuto para DeepSeek el R1 V1. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, ConverseStream y. InvokeModel InvokeModelWithResponseStream
Cross-region modele los símbolos de inferencia por minuto para Meta Llama 3.1 405B Instruct	Cada región admitida: 800 000	Sí	El número máximo de fichas entre regiones que puedes enviar para la inferencia de modelos en un minuto para Meta Llama 3.1 405B Instruct. La cuota considera la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Cross-region modele los símbolos de inferencia por minuto para Meta Llama 3.1 70B Instruct	Cada región admitida: 600 000	Sí	El número máximo de fichas entre regiones que puedes enviar para la inferencia de modelos en un minuto para Meta Llama 3.1 70B Instruct. La cuota considera la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Cross-region modele los símbolos de inferencia por minuto para Meta Llama 3.1 8B Instruct	Cada región admitida: 600 000	Sí	El número máximo de fichas entre regiones que puedes enviar para la inferencia de modelos en un minuto para Meta Llama 3.1 8B Instruct. La cuota considera la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Cross-region modele los símbolos de inferencia por minuto para Meta Llama 3.2 1B Instruct	Cada región admitida: 600 000	Sí	El número máximo de fichas entre regiones que puedes enviar para la inferencia de modelos en un minuto para Meta Llama 3.2 1B Instruct. La cuota considera la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, ConverseStream y. InvokeModel InvokeModelWithResponseStream
Cross-region modele los símbolos de inferencia por minuto para Meta Llama 3.2 3B Instruct	Cada región admitida: 600 000	Sí	El número máximo de fichas que puedes enviar para la inferencia del modelo en un minuto para Meta Llama 3.2 3B Instruct. La cuota considera la suma combinada de los tokens de InvokeModel, InvokeModelWithResponseStream, Converse y. ConverseStream
Cross-region modele los símbolos de inferencia por minuto para Meta Llama 3.3 70B Instruct	Cada región admitida: 600 000	Sí	El número máximo de fichas entre regiones que puedes enviar para la inferencia de modelos en un minuto para Meta Llama 3.3 70B Instruct. La cuota considera la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Cross-region modele los tokens de inferencia por minuto para Meta Llama 4 Maverick V1	Cada región admitida: 600 000	Sí	El número máximo de fichas entre regiones que puedes enviar para la inferencia de modelos en un minuto en el caso de Meta Llama 4 Maverick V1. La cuota considera la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, ConverseStream y. InvokeModel InvokeModelWithResponseStream
Cross-region modela las fichas de inferencia por minuto para Meta Llama 4 Scout V1	Cada región admitida: 600 000	Sí	El número máximo de fichas entre regiones que puedes enviar para la inferencia de modelos en un minuto para Meta Llama 4 Scout V1. La cuota considera la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, ConverseStream y. InvokeModel InvokeModelWithResponseStream
Cross-region modele los símbolos de inferencia por minuto para Mistral Pixtral Large 25.02 V1	Cada región admitida: 80 000	Sí	El número máximo de fichas entre regiones que puede enviar para la inferencia del modelo en un minuto para Mistral Pixtral Large 25.02 V1. La cuota considera la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Cross-region modele los símbolos de inferencia por minuto para Writer AI Palmyra X4 V1	Cada región admitida: 150 000	Sí	El número máximo de fichas entre regiones que puedes enviar para la inferencia de modelos en un minuto en el caso de Writer AI Palmyra X4 V1. La cuota considera la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Cross-region modele los símbolos de inferencia por minuto para Writer AI Palmyra X5 V1	Cada región admitida: 150 000	Sí	El número máximo de fichas entre regiones que puedes enviar para la inferencia de modelos en un minuto en el caso de Writer AI Palmyra X5 V1. La cuota considera la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Modelos personalizados con un estado de creación por cuenta	Cada región admitida: 2	Sí	El número máximo de modelos personalizado con un estado de creación.
DeleteAgent solicitudes por segundo	Cada región admitida: 2	No	El número máximo de solicitudes de DeleteAgent API por segundo.
DeleteAgentActionGroup solicitudes por segundo	Cada región admitida: 2	No	El número máximo de solicitudes de DeleteAgentActionGroup API por segundo.
DeleteAgentAlias solicitudes por segundo	Cada región admitida: 2	No	El número máximo de solicitudes de DeleteAgentAlias API por segundo.
DeleteAgentVersion solicitudes por segundo	Cada región admitida: 2	No	El número máximo de solicitudes de DeleteAgentVersion API por segundo.
DisassociateAgentKnowledgeBase solicitudes por segundo	Cada región admitida: 4	No	El número máximo de solicitudes de DisassociateAgentKnowledgeBase API por segundo.
Grupos de acciones por agente	Cada región admitida: 15	Sí	El número máximo de grupos de acciones que puede habilitar en un agente.
Puntos de conexión por perfil de inferencia	Cada región admitida: 5	No	El número máximo de puntos de conexión en un perfil de inferencia. Un punto de conexión se define mediante un modelo y la región a la que se envían las solicitudes de invocación al modelo.
GetAgent solicitudes por segundo	Cada región admitida: 15	No	El número máximo de solicitudes de GetAgent API por segundo.
GetAgentActionGroup solicitudes por segundo	Cada región admitida: 20	No	El número máximo de solicitudes de GetAgentActionGroup API por segundo.
GetAgentAlias solicitudes por segundo	Cada región admitida: 10	No	El número máximo de solicitudes de GetAgentAlias API por segundo.
GetAgentKnowledgeBase solicitudes por segundo	Cada región admitida: 15	No	El número máximo de solicitudes de GetAgentKnowledgeBase API por segundo.
GetAgentVersion solicitudes por segundo	Cada región admitida: 10	No	El número máximo de solicitudes de GetAgentVersion API por segundo.
Solicitudes de inferencia de modelos globales entre regiones por minuto para Amazon Nova 2 Lite	Cada región admitida: 2000	Sí	El número máximo de solicitudes globales entre regiones que puede enviar para la inferencia de modelos en un minuto para Amazon Nova 2 Lite. Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos globales entre regiones por minuto para Amazon Nova 2 Omni	Cada región admitida: 2000	Sí	El número máximo de solicitudes globales entre regiones que puede enviar para la inferencia de modelos en un minuto para Amazon Nova 2 Omni. Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos globales entre regiones por minuto para Amazon Nova 2 Pro Preview	Cada región admitida: 100	Sí	El número máximo de solicitudes globales entre regiones que puede enviar para la inferencia de modelos en un minuto para Amazon Nova 2 Pro Preview. Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes globales de inferencia de modelos interregionales por minuto para Anthropic Claude Haiku 4.5	Cada región admitida: 10 000	Sí	El número máximo de solicitudes globales interregionales que se pueden enviar para la inferencia de modelos en un minuto para Anthropic Claude Haiku 4.5. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes globales de inferencia de modelos interregionales por minuto para Anthropic Claude Opus 4.5	Cada región admitida: 10 000	Sí	El número máximo de solicitudes globales interregionales que puede enviar para la inferencia de modelos en un minuto para Anthropic Claude Opus 4.5. Esta cuota representa el número total de solicitudes y acciones dirigidas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes globales de inferencia de modelos interregionales por minuto para Anthropic Claude Opus 4.6 V1	Cada región admitida: 10 000	Sí	El número máximo de solicitudes globales entre regiones que puede enviar para la inferencia de modelos en un minuto para Anthropic Claude Opus 4.6 V1. Esta cuota representa el número total de solicitudes enviadas a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes globales de inferencia de modelos interregionales por minuto para Anthropic Claude Sonnet 4 V1	Cada región admitida: 200	Sí	El número máximo de solicitudes globales entre regiones que puede enviar para la inferencia de modelos en un minuto para Anthropic Claude Sonnet 4 V1. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes globales de inferencia de modelos interregionales por minuto para Anthropic Claude Sonnet 4.5 V1	Cada región admitida: 10 000	Sí	El número máximo de solicitudes globales entre regiones que se pueden enviar para la inferencia de modelos en un minuto para Anthropic Claude Sonnet 4.5 V1. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes globales de inferencia de modelos interregionales por minuto para Anthropic Claude Sonnet 4.5 V1 con longitud de contexto de 1 millón.	Cada región admitida: 1000	Sí	El número máximo de solicitudes interregionales globales que puede enviar para la inferencia de modelos en un minuto para Anthropic Claude Sonnet 4.5 V1 con longitud de contexto de 1 millón. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes globales de inferencia de modelos interregionales por minuto para Anthropic Claude Sonnet 4.6	Cada región admitida: 10 000	Sí	El número máximo de solicitudes globales interregionales que puede enviar para la inferencia de modelos en un minuto para Anthropic Claude Sonnet 4.6. Esta cuota representa el número total de solicitudes enviadas a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos globales entre regiones por minuto para Cohere Embed V4	Cada región admitida: 2000	Sí	El número máximo de solicitudes globales entre regiones que puede enviar para la inferencia de modelos en un minuto para Cohere Embed V4. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Tokens de inferencia de modelos globales entre regiones por día para Amazon Nova 2 Lite	Cada región compatible: 11 520 000 000	No	El número máximo de tokens globales entre regiones que puede enviar para la inferencia de modelos en un día para Amazon Nova 2 Lite. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, ConverseStream y. InvokeModel InvokeModelWithResponseStream
Tokens de inferencia de modelos globales entre regiones por día para Amazon Nova 2 Omni	Cada región compatible: 11 520 000 000	No	El número máximo de tokens globales entre regiones que puede enviar para la inferencia de modelos en un día para Amazon Nova 2 Omni. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Tokens de inferencia de modelos globales entre regiones por día para Amazon Nova 2 Pro Preview	Cada región admitida: 1 440 000 000	No	El número máximo de tokens globales entre regiones que puede enviar para la inferencia de modelos en un día para Amazon Nova 2 Pro Preview. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, ConverseStream y. InvokeModel InvokeModelWithResponseStream
Símbolos de inferencia de modelos interregionales globales por día para Anthropic Claude Fable 5	Cada región admitida: 720 000 000	No	El número máximo de fichas globales entre regiones que puedes enviar para la inferencia de modelos en un día para Anthropic Claude Fable 5. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Tokens de inferencia de modelos interregionales globales por día para Anthropic Claude Haiku 4.5	Cada región compatible: 7 200 000 000	No	El número máximo de fichas globales entre regiones que puedes enviar para la inferencia de modelos en un día para Anthropic Claude Haiku 4.5. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Símbolos de inferencia de modelos interregionales globales por día para Anthropic Claude Opus 4.5	Cada región compatible: 2 880 000 000	No	El número máximo de fichas globales entre regiones que puedes enviar para la inferencia de modelos en un día para Anthropic Claude Opus 4.5. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Símbolos de inferencia de modelos interregionales globales por día para Anthropic Claude Opus 4.6 V1	Cada región compatible: 4 320 000 000	No	El número máximo de fichas globales entre regiones que puedes enviar para la inferencia de modelos en un día para Anthropic Claude Opus 4.6 V1. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Símbolos de inferencia de modelos interregionales globales por día para Anthropic Claude Opus 4.7	Cada región compatible: 14 400 000 000	No	El número máximo de fichas globales entre regiones que puedes enviar para la inferencia de modelos en un día para Anthropic Claude Opus 4.7. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Símbolos de inferencia de modelos interregionales globales por día para Anthropic Claude Opus 4.8	Cada región compatible: 43 200 000 000	No	El número máximo de fichas globales entre regiones que puedes enviar para la inferencia de modelos en un día para Anthropic Claude Opus 4.8. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Tokens de inferencia de modelos globales entre regiones por día para Anthropic Claude Sonnet 4 V1	Cada región admitida: 288 000 000	No	El número máximo de fichas globales entre regiones que puedes enviar para la inferencia de modelos en un día para Anthropic Claude Sonnet 4 V1. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Tokens de inferencia de modelos globales entre regiones por día para Anthropic Claude Sonnet 4.5 V1	Cada región compatible: 7 200 000 000	No	El número máximo de fichas globales entre regiones que puedes enviar para la inferencia de modelos en un día para Anthropic Claude Sonnet 4.5 V1. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Tokens de inferencia de modelos interregionales globales por día para Anthropic Claude Sonnet 4.5 V1 con longitud de contexto de 1 millón.	Cada región admitida: 1 440 000 000	No	El número máximo de tokens interregionales globales que puede enviar para la inferencia de modelos en un día para Anthropic Claude Sonnet 4.5 V1 con longitud de contexto de 1 millón. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Símbolos de inferencia de modelos interregionales globales por día para Anthropic Claude Sonnet 4.6	Cada región compatible: 8.640 000 000	No	El número máximo de fichas globales entre regiones que puedes enviar para la inferencia de modelos en un día para Anthropic Claude Sonnet 4.6. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Símbolos de inferencia de modelos interregionales globales por día para Anthropic Claude Sonnet 5	Cada región compatible: 8.640 000 000	No	El número máximo de fichas globales entre regiones que puedes enviar para la inferencia de modelos en un día para Anthropic Claude Sonnet 5. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Tokens de inferencia de modelos globales entre regiones por día para Cohere Embed V4	Cada región admitida: 432 000 000	No	El número máximo de tokens globales entre regiones que puede enviar para la inferencia de modelos en un día para Cohere Embed V4. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Tokens de inferencia de modelos globales entre regiones por minuto para Amazon Nova 2 Lite	Cada región compatible: 8 000 000	Sí	El número máximo de tokens globales entre regiones que puede enviar para la inferencia de modelos en un minuto para Amazon Nova 2 Lite. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, ConverseStream y. InvokeModel InvokeModelWithResponseStream
Tokens de inferencia de modelos globales entre regiones por minuto para Amazon Nova 2 Omni	Cada región compatible: 8 000 000	Sí	El número máximo de tokens globales entre regiones que puede enviar para la inferencia de modelos en un minuto para Amazon Nova 2 Omni. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Tokens de inferencia de modelos globales entre regiones por minuto para Amazon Nova 2 Pro Preview	Cada región admitida: 1 000 000	Sí	El número máximo de tokens globales entre regiones que puede enviar para la inferencia de modelos en un minuto para Amazon Nova 2 Pro Preview. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, ConverseStream y. InvokeModel InvokeModelWithResponseStream
Símbolos de inferencia del modelo global interregional por minuto para Anthropic Claude Fable 5	Cada región admitida: 500 000	Sí	El número máximo de fichas globales entre regiones que puedes enviar para la inferencia de modelos en un minuto para Anthropic Claude Fable 5. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Símbolos globales de inferencia de modelos interregionales por minuto para Anthropic Claude Haiku 4.5	Cada región admitida: 5 000 000	Sí	El número máximo de fichas globales entre regiones que puedes enviar para la inferencia de modelos en un minuto para Anthropic Claude Haiku 4.5. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Símbolos de inferencia del modelo global interregional por minuto para Anthropic Claude Opus 4.5	Cada región admitida: 2 000 000	Sí	El número máximo de fichas globales entre regiones que puedes enviar para la inferencia de modelos en un minuto en el caso de Anthropic Claude Opus 4.5. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Símbolos de inferencia del modelo global interregional por minuto para Anthropic Claude Opus 4.6 V1	Cada región admitida: 3 000 000	Sí	El número máximo de fichas globales entre regiones que puedes enviar para la inferencia de modelos en un minuto en el caso de Anthropic Claude Opus 4.6 V1. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Símbolos de inferencia del modelo global interregional por minuto para Anthropic Claude Opus 4.7	Cada región admitida: 10 000 000	Sí	El número máximo de fichas globales entre regiones que puedes enviar para la inferencia de modelos en un minuto para Anthropic Claude Opus 4.7. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Símbolos de inferencia del modelo global interregional por minuto para Anthropic Claude Opus 4.8	Cada región compatible: 30 000 000	Sí	El número máximo de fichas globales entre regiones que puedes enviar para la inferencia de modelos en un minuto para Anthropic Claude Opus 4.8. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Tokens de inferencia de modelos globales entre regiones por minuto para Anthropic Claude Sonnet 4 V1	Cada región admitida: 200 000	Sí	El número máximo de fichas globales entre regiones que puede enviar para la inferencia del modelo en un minuto para Anthropic Claude Sonnet 4 V1. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Tokens de inferencia de modelos globales entre regiones por minuto para Anthropic Claude Sonnet 4.5 V1	Cada región admitida: 5 000 000	Sí	El número máximo de fichas globales entre regiones que puede enviar para la inferencia del modelo en un minuto para Anthropic Claude Sonnet 4.5 V1. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Tokens de inferencia de modelos interregionales globales por minuto para Anthropic Claude Sonnet, 4.5 V1 con longitud de contexto de 1 millón.	Cada región admitida: 1 000 000	Sí	El número máximo de tokens interregionales globales que puede enviar para la inferencia de modelos en un minuto para Anthropic Claude Sonnet 4.5 V1 con longitud de contexto de 1 millón. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Símbolos de inferencia del modelo global interregional por minuto para Anthropic Claude Sonnet 4.6	Cada región compatible: 6 000 000	Sí	El número máximo de fichas globales entre regiones que puedes enviar para la inferencia de modelos en un minuto para Anthropic Claude Sonnet 4.6. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Símbolos de inferencia del modelo global interregional por minuto para Anthropic Claude Sonnet 5	Cada región compatible: 6 000 000	Sí	El número máximo de fichas globales entre regiones que puedes enviar para la inferencia de modelos en un minuto para Anthropic Claude Sonnet 5. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Tokens de inferencia de modelos globales entre regiones por minuto para Cohere Embed V4	Cada región admitida: 300 000	Sí	El número máximo de tokens globales entre regiones que puede enviar para la inferencia de modelos en un minuto para Cohere Embed V4. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Modelos importados por cuenta	Cada región admitida: 3	Sí	Número máximo de modelos en la misma cuenta.
Perfiles de inferencia por cuenta	Cada región admitida: 1000	Sí	El número máximo de perfiles de inferencia en una cuenta.
ListAgentActionGroups solicitudes por segundo	Cada región admitida: 10	No	El número máximo de solicitudes de ListAgentActionGroups API por segundo.
ListAgentAliases solicitudes por segundo	Cada región admitida: 10	No	El número máximo de solicitudes de ListAgentAliases API por segundo.
ListAgentKnowledgeBases solicitudes por segundo	Cada región admitida: 10	No	El número máximo de solicitudes de ListAgentKnowledgeBases API por segundo.
ListAgentVersions solicitudes por segundo	Cada región admitida: 10	No	El número máximo de solicitudes de ListAgentVersions API por segundo.
ListAgents solicitudes por segundo	Cada región admitida: 10	No	El número máximo de solicitudes de ListAgents API por segundo.
Número mínimo de registros por trabajo de inferencia de lotes para Amazon Nova 2 Multimodal Embeddings V1	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia por lotes para Amazon Nova 2 Multimodal Embeddings V1.
Número mínimo de registros por trabajo de inferencia en lotes para Amazon Nova Premier	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia en lotes para Amazon Nova Premier.
Número mínimo de registros por trabajo de inferencia en lotes para Claude 3 Haiku	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia en lotes para Claude 3 Haiku.
Número mínimo de registros por trabajo de inferencia en lotes para Claude 3 Opus	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia en lotes para Claude 3 Opus.
Número mínimo de registros por trabajo de inferencia en lotes para Claude 3 Sonnet	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia en lotes para Claude 3 Sonnet.
Número mínimo de registros por trabajo de inferencia en lotes para Claude 3.5 Haiku	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia en lotes para Claude 3.5 Haiku.
Número mínimo de registros por trabajo de inferencia en lotes para Claude 3.5 Sonnet	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia en lotes para el Sonnet Claude 3.5.
Número mínimo de registros por trabajo de inferencia en lotes para Claude 3.5 Sonnet v2	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia en lotes para Claude 3.5 Sonnet v2.
Número mínimo de registros por trabajo de inferencia en lotes para Claude 3.7 Sonnet	Cada región admitida: 100	Sí	El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia en lotes para Claude 3.7 Sonnet.
Número mínimo de registros por trabajo de inferencia por lotes para Claude Haiku 4.5	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Claude Haiku 4.5.
Número mínimo de registros por trabajo de inferencia por lotes para Claude Opus 4.5	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Claude Opus 4.5.
Número mínimo de registros por trabajo de inferencia por lotes para Claude Opus 4.6	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Claude Opus 4.6.
Número mínimo de registros por trabajo de inferencia en lotes para Claude Sonnet 4	Cada región admitida: 100	Sí	El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia en lotes para Claude Sonnet 4.
Número mínimo de registros por trabajo de inferencia por lotes para Claude Sonnet 4.5.	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Claude Sonnet 4.5.
Número mínimo de registros por trabajo de inferencia por lotes para Claude Sonnet 4.6	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia por lotes para Claude Sonnet 4.6.
Número mínimo de registros por trabajo de inferencia por lotes para DeepSeek V3.2	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia por lotes para. DeepSeek V3.2
Número mínimo de registros por trabajo de inferencia por lotes para la versión 3 DeepSeek	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia por lotes para la versión 3. DeepSeek
Número mínimo de registros por trabajo de inferencia por lotes para Devstral 2 123B	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Devstral 2 123B.
Número mínimo de registros por trabajo de inferencia por lotes para GLM 4.7	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia por lotes para GLM 4.7.
Número mínimo de registros por trabajo de inferencia por lotes para GLM 4.7 Flash	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia por lotes para GLM 4.7 Flash.
Número mínimo de registros por trabajo de inferencia por lotes para GLM 5	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia por lotes para GLM 5.
Número mínimo de registros por trabajo de inferencia por lotes para Gemma 3 12B	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia por lotes para Gemma 3 12B.
Número mínimo de registros por trabajo de inferencia por lotes para Gemma 3 27B	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia por lotes para Gemma 3 27B.
Número mínimo de registros por trabajo de inferencia por lotes para Gemma 3 4B	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia por lotes para Gemma 3 4B.
Número mínimo de registros por lote: trabajo de inferencia para Kimi K2 Thinking	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Kimi K2 Thinking.
Número mínimo de registros por trabajo de inferencia por lotes para Kimi K2.5	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia por lotes para Kimi. K2.5
Número mínimo de registros por trabajo de inferencia en lotes para Llama 3.1 405B Instruct	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Llama 3.1 405B Instruct.
Número mínimo de registros por trabajo de inferencia en lotes para Llama 3.1 70B Instruct	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Llama 3.1 70B Instruct.
Número mínimo de registros por trabajo de inferencia en lotes para Llama 3.1 8B Instruct	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Llama 3.1 8B Instruct.
Número mínimo de registros por trabajo de inferencia en lotes para Llama 3.2 11B Instruct	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Llama 3.2 11B Instruct.
Número mínimo de registros por trabajo de inferencia en lotes para Llama 3.2 1B Instruct	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia en lotes Llama 3.2 1B Instruct.
Número mínimo de registros por trabajo de inferencia en lotes para Llama 3.2 3B Instruct	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Llama 3.2 3B Instruct.
Número mínimo de registros por trabajo de inferencia en lotes para Llama 3.2 90B Instruct	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Llama 3.2 90B Instruct.
Número mínimo de registros por trabajo de inferencia en lotes para Llama 3.3 70B Instruct	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Llama 3.3 70B Instruct.
Número mínimo de registros por trabajo de inferencia en lotes para Llama 4 Maverick	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Llama 4 Maverick.
Número mínimo de registros por trabajo de inferencia en lotes para Llama 4 Scout	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Llama 4 Scout.
Número mínimo de registros por lote: trabajo de inferencia para Magistral Small 2509	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Magistral Small 2509.
Número mínimo de registros por trabajo de inferencia por lotes para M2 MiniMax	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia por lotes para MiniMax M2.
Número mínimo de registros por trabajo de inferencia por lotes para MiniMax M2.1	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia por lotes para. MiniMax M2.1
Número mínimo de registros por trabajo de inferencia por lotes para MiniMax M2.5	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia por lotes para. MiniMax M2.5
Número mínimo de registros por lote: trabajo de inferencia para Ministral 3 14B	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Ministral 3 14B.
Número mínimo de registros por trabajo de inferencia por lotes para Ministral 3 8B	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Ministral 3 8B.
Número mínimo de registros por trabajo de inferencia por lotes para Ministral 3B	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Ministral 3B.
Número mínimo de registros por trabajo de inferencia en lotes para Mistral Large 2 (24.07)	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Mistral Large 2 (24.07).
Número mínimo de registros por trabajo de inferencia por lotes para Mistral Large 3	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Mistral Large 3.
Número mínimo de registros por trabajo de inferencia en lotes para Mistral Small	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia en lotes para Mistral Small.
Número mínimo de registros por trabajo de inferencia por lote para NVIDIA Nemotron 3 Super 120B A12B	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia por lotes para NVIDIA Nemotron 3 Super 120B A12B.
Número mínimo de registros por trabajo de inferencia por lote para NVIDIA Nemotron Nano 12B	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia por lotes para NVIDIA Nemotron Nano 12B.
Número mínimo de registros por trabajo de inferencia por lote para NVIDIA Nemotron Nano 3 30B	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia por lotes para NVIDIA Nemotron Nano 3 30B.
Número mínimo de registros por trabajo de inferencia por lote para NVIDIA Nemotron Nano 9B	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia por lotes para NVIDIA Nemotron Nano 9B.
Número mínimo de registros por trabajo de inferencia por lote para Nova 2 Lite	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Nova 2 Lite.
Número mínimo de registros por trabajo de inferencia en lotes para Nova Lite V1	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia en lotes para Nova Lite V1.
Número mínimo de registros por trabajo de inferencia en lotes para Nova Micro V1	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia en lotes para Nova Micro V1.
Número mínimo de registros por trabajo de inferencia en lotes para Nova Pro V1	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia en lotes para Nova Pro V1.
Número mínimo de registros por trabajo de inferencia en lotes para OpenAI GPT OSS 120b	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para OpenAI GPT OSS 120b.
Número mínimo de registros por trabajo de inferencia en lotes para OpenAI GPT OSS 20b	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para OpenAI GPT OSS 20b.
Número mínimo de registros por trabajo de inferencia por lote para OpenAI GPT OSS Safeguard 120b	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para OpenAI GPT OSS Safeguard 120b.
Número mínimo de registros por trabajo de inferencia por lote para OpenAI GPT OSS Safeguard 2.0b	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para OpenAI GPT OSS Safeguard 20b.
Número mínimo de registros por trabajo de inferencia en lotes para Qwen3 235B	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia en lotes para Qwen3 235B.
Número mínimo de registros por trabajo de inferencia en lotes para Qwen3 32B	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia en lotes para Qwen3 32B.
Número mínimo de registros por trabajo de inferencia en lotes para Qwen3 Coder 30B	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Qwen3 Coder 30B.
Número mínimo de registros por trabajo de inferencia en lotes para Qwen3 Coder 480B	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Qwen3 Coder 480B.
Número mínimo de registros por trabajo de inferencia por lote para Qwen3 Coder Next	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Qwen3 Coder Next.
Número mínimo de registros por trabajo de inferencia por lote para Qwen3 Next 80B	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia por lotes para Qwen3 Next 80B.
Número mínimo de registros por trabajo de inferencia por lote para Qwen3 VL 235B	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Qwen3 VL 235B.
Número mínimo de registros por trabajo de inferencia en lotes para Titan Multimodal Embeddings G1	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia en lotes para Titan Multimodal Embeddings G1.
Número mínimo de registros por trabajo de inferencia en lotes para Titan Text Embeddings versión 2	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Titan Text Embeddings V2.
Número mínimo de registros por trabajo de inferencia por lote para Voxtral Mini 3B 2507	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Voxtral Mini 3B 2507.
Número mínimo de registros por trabajo de inferencia por lote para Voxtral Small 24B 2507	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Voxtral Small 24B 2507.
Número mínimo de registros por lote: trabajo de inferencia para Writer Palmyra Vision 7B	Cada región admitida: 100	No	El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Writer Palmyra Vision 7B.
Número máximo de tokens optimizados para latencia de invocación de modelos por día para Amazon Nova Pro V1	Cada región compatible: 57 600 000	No	El número máximo de tokens que puede enviar para la inferencia de modelos con latencia optimizada en un día para Amazon Nova Pro V1. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Modela el número máximo de tokens de invocación por día para el Jamba 1.5 Large de AI21 Labs (el doble para las llamadas entre regiones)	Cada región admitida: 432 000 000	No	Número máximo diario de fichas para la inferencia de modelos en el Jamba 1.5 Large de AI21 Labs. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modela el número máximo de tokens de invocación por día para el Jamba 1.5 Mini de AI21 Labs (el doble para las llamadas entre regiones)	Cada región admitida: 432 000 000	No	Número máximo diario de fichas para la inferencia de modelos en el Jamba 1.5 Mini de AI21 Labs. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modele el número máximo de tokens de invocación por día para Amazon Nova 2 Lite (el doble para las llamadas entre regiones)	Cada región admitida: 5 760 000 000	No	Número máximo diario de tokens para la inferencia de modelos para Amazon Nova 2 Lite. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modele el número máximo de tokens de invocación por día para Amazon Nova 2 Omni (el doble para las llamadas entre regiones)	Cada región admitida: 5 760 000 000	No	Número máximo diario de tokens para la inferencia de modelos para Amazon Nova 2 Omni. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y ConverseStream. InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Número máximo de tokens de invocación del modelo por día para Amazon Nova 2 Pro Preview (el doble para llamadas entre regiones)	Cada región admitida: 720 000 000	No	Número máximo diario de tokens para la inferencia de modelos de Amazon Nova 2 Pro Preview. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modele el número máximo de tokens de invocación por día para Amazon Nova Lite (el doble para las llamadas entre regiones)	Cada región admitida: 5 760 000 000	No	Número máximo diario de tokens para la inferencia de modelos para Amazon Nova Lite. Combina la suma de los tokens de entrada y salida en todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modele el número máximo de tokens de invocación por día para Amazon Nova Micro (el doble para las llamadas entre regiones)	Cada región admitida: 5 760 000 000	No	Número máximo diario de tokens para la inferencia de modelos para Amazon Nova Micro. Combina la suma de los tokens de entrada y salida en todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Token máximo por día de invocación de modelos para Amazon Nova Premier V1 (el doble para las llamadas entre regiones)	Cada región admitida: 1 440 000 000	No	Número máximo diario de tokens para la inferencia de modelos para Amazon Nova Premier V1. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modele el número máximo de tokens de invocación por día para Amazon Nova Pro (el doble para las llamadas entre regiones)	Cada región admitida: 1 440 000 000	No	Número máximo diario de tokens para la inferencia de modelos para Amazon Nova Pro. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modela el número máximo de tokens de invocación por día para Anthropic Claude 3 Haiku (el doble para las llamadas entre regiones)	us-east-1:2.880.000.000 us-west-2:2.880.000.000 ap-northeast-1:288 000 000 ap-southeast-1:288 000 000 Cada una de las demás regiones compatibles: 432 000 000	No	Número máximo diario de fichas para deducir modelos de Anthropic Claude 3 Haiku. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modela el número máximo de tokens de invocación por día para Anthropic Claude 3.5 Haiku (el doble para las llamadas entre regiones)	Cada región compatible: 2 880 000 000	No	Número máximo diario de fichas para la inferencia de modelos para el Haiku Anthropic Claude 3.5. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modele el número máximo de tokens de invocación por día para el Sonnet V1 de Anthropic Claude 3.5 (el doble para las llamadas entre regiones)	Cada región compatible: 2 880 000 000	No	Número máximo diario de fichas para la inferencia de modelos del Sonnet V1 de Anthropic Claude 3.5. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modele el número máximo de tokens de invocación por día para el Sonnet V2 de Anthropic Claude 3.5 (el doble para las llamadas entre regiones)	us-east-1:2.880.000.000 us-west-2:2.880.000.000 Cada una de las demás regiones compatibles: 576 000 000	No	Número máximo diario de fichas para la inferencia de modelos del Sonnet V2 de Anthropic Claude 3.5. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Token máximo por día de invocación de modelos para Sonnet V1 de Anthropic Claude 3.7 (el doble para las llamadas entre regiones)	Cada región admitida: 720 000 000	No	Número máximo diario de fichas para la inferencia del modelo Anthropic Claude 3.7 Sonnet V1. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modela el número máximo de tokens de invocación por día para Anthropic Claude Fable 5 (el doble para las llamadas entre regiones)	Cada región admitida: 144 000 000	No	Número máximo diario de fichas para la inferencia del modelo de Anthropic Claude Fable 5. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Token máximo por día de invocación de modelos para Anthropic Claude Haiku 4.5 (el doble para las llamadas entre regiones)	Cada región compatible: 3 600 000 000	No	Número máximo diario de fichas para la inferencia del modelo Anthropic Claude Haiku 4.5. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Token máximo por día de invocación de modelos para Anthropic Claude Opus 4 V1 (el doble para las llamadas entre regiones)	Cada región admitida: 144 000 000	No	Número máximo diario de fichas para la inferencia del modelo Anthropic Claude Opus 4 V1. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Token máximo por día de invocación de modelos para Anthropic Claude Opus 4.1 (el doble para las llamadas entre regiones)	Cada región admitida: 360 000 000	No	Número máximo diario de fichas para la inferencia del modelo Anthropic Claude Opus 4.1. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modela el número máximo de tokens de invocación por día para Anthropic Claude Opus 4.5 (el doble para las llamadas entre regiones)	Cada región admitida: 1 440 000 000	No	Número máximo diario de fichas para la inferencia del modelo Anthropic Claude Opus 4.5. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modela el número máximo de tokens de invocación por día para Anthropic Claude Opus 4.6 V1 (el doble para las llamadas entre regiones)	Cada región compatible: 2 160 000 000	No	Número máximo diario de fichas para la inferencia de modelos de Anthropic Claude Opus 4.6 V1. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modela el número máximo de tokens de invocación por día para Anthropic Claude Opus 4.7 (el doble para las llamadas entre regiones)	Cada región compatible: 7.200 000 000	No	Número máximo diario de fichas para la inferencia de modelos de Anthropic Claude Opus 4.7. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modela el número máximo de tokens de invocación por día para Anthropic Claude Opus 4.8 (el doble para las llamadas entre regiones)	Cada región compatible: 21 600 000 000	No	Número máximo diario de fichas para la inferencia de modelos de Anthropic Claude Opus 4.8. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Token máximo por día de invocación de modelos para Anthropic Claude Sonnet 4 V1 (el doble para las llamadas entre regiones)	Cada región admitida: 144 000 000	No	Número máximo diario de fichas para la inferencia del modelo Anthropic Claude Sonnet 4 V1. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Tokens máximos por día de invocación de modelos para Anthropic Claude Sonnet 4 V1 con longitud de contexto de 1 millón (el doble para llamadas entre regiones).	Cada región admitida: 720 000 000	No	Número máximo diario de tokens para la inferencia del modelo Anthropic Claude Sonnet 4 V1 con longitud de contexto de 1 millón. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Token máximo por día de invocación de modelos para Anthropic Claude Sonnet 4.5 V1 (el doble para las llamadas entre regiones)	Cada región compatible: 3 600 000 000	No	Número máximo diario de fichas para la inferencia del modelo Anthropic Claude Sonnet 4.5 V1. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Tokens máximos por día de invocación de modelos para Anthropic Claude Sonnet 4.5 V1 con longitud de contexto de 1 millón (el doble para las llamadas entre regiones).	Cada región admitida: 720 000 000	No	Número máximo diario de tokens para la inferencia del modelo para Anthropic Claude Sonnet 4.5 V1 con longitud de contexto de 1 millón. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modela el número máximo de tokens de invocación por día para Anthropic Claude Sonnet 4.6 (el doble para las llamadas entre regiones)	Cada región compatible: 4 320 000 000	No	Número máximo diario de fichas para la inferencia del modelo Anthropic Claude Sonnet 4.6. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modela el número máximo de tokens de invocación por día para Anthropic Claude Sonnet 5 (el doble para las llamadas entre regiones)	Cada región compatible: 4 320 000 000	No	Número máximo diario de fichas para la inferencia de modelos del Soneto 5 de Anthropic Claude. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Token máximo por día de invocación de modelos para Cohere Embed V4 (el doble para las llamadas entre regiones)	Cada región admitida: 216 000 000	No	Número máximo diario de tokens para la inferencia de modelos para Cohere Embed V4. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modele el número máximo de tokens de invocación por día para DeepSeek R1 V1 (el doble para las llamadas entre regiones)	Cada región admitida: 144 000 000	No	Número máximo diario de tokens para la inferencia de modelos para el R1 V1 DeepSeek . Combina la suma de los tokens de entrada y salida en todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modele el número máximo de tokens de invocación por día para la DeepSeek V3 V1 (el doble para las llamadas entre regiones)	Cada región admitida: 144 000 000 000	No	Número máximo diario de fichas para la inferencia de modelos para la V3 V1. DeepSeek Combina la suma de los tokens de entrada y salida en todas las solicitudes a Converse, y ConverseStream. InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modela el número máximo de tokens de invocación por día DeepSeek V3.2 (el doble para las llamadas entre regiones)	Cada región admitida: 144 000 000 000	No	Número máximo diario de fichas para la inferencia del modelo. DeepSeek V3.2 Combina la suma de los tokens de entrada y salida en todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modele el número máximo de tokens de invocación por día para GPT OSS Safeguard 120B (el doble para las llamadas entre regiones)	Cada región admitida: 144 000 000 000	No	Número máximo diario de tokens para la inferencia del modelo GPT OSS Safeguard 120B. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modele el número máximo de tokens de invocación por día para GPT OSS Safeguard 20B (el doble para las llamadas entre regiones)	Cada región admitida: 144 000 000 000	No	Número máximo diario de tokens para la inferencia del modelo GPT OSS Safeguard 20B. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modela el número máximo de tokens de invocación por día para Gemma 3 12B (el doble para las llamadas entre regiones)	Cada región admitida: 144 000 000 000	No	Número máximo diario de fichas para la inferencia del modelo Gemma 3 12B. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modele el número máximo de tokens de invocación por día para Gemma 3 27B (el doble para las llamadas entre regiones)	Cada región admitida: 144 000 000 000	No	Número máximo diario de fichas para la inferencia del modelo Gemma 3 27B. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modela el número máximo de tokens de invocación por día para Gemma 3 (4B) (el doble para las llamadas entre regiones)	Cada región admitida: 144 000 000 000	No	Número máximo diario de fichas para la inferencia del modelo Gemma 3 4B. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse,, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modela el número máximo de tokens de invocación por día para Kimi K2 Thinking (el doble para las llamadas entre regiones)	Cada región admitida: 144 000 000 000	No	Número máximo diario de fichas para la inferencia de modelos de Kimi K2 Thinking. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse,, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modela el número máximo de tokens de invocación por día para Magistral Small 1.2 (el doble para las llamadas entre regiones)	Cada región admitida: 144 000 000 000	No	Número máximo diario de fichas para la inferencia del modelo Magistral Small 1.2. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y ConverseStream. InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modela el número máximo de tokens de invocación por día para Meta Llama 3.2 11B Instruct (el doble para las llamadas entre regiones)	Cada región admitida: 432 000 000	No	Número máximo diario de fichas para la inferencia de modelos para Meta Llama 3.2 11B Instruct. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modela el número máximo de tokens de invocación por día para Meta Llama 3.2 1B Instruct (el doble para las llamadas entre regiones)	Cada región admitida: 432 000 000	No	Número máximo diario de fichas para la inferencia de modelos para Meta Llama 3.2 1B Instruct. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y ConverseStream. InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modela el número máximo de tokens de invocación por día para Meta Llama 3.2 3B Instruct (el doble para las llamadas entre regiones)	Cada región admitida: 432 000 000	No	Número máximo diario de fichas para la inferencia de modelos para Meta Llama 3.2 3B Instruct. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y ConverseStream. InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modela el número máximo de tokens de invocación por día para Meta Llama 3.2 90B Instruct (el doble para las llamadas entre regiones)	Cada región admitida: 432 000 000	No	Número máximo diario de fichas para la inferencia de modelos para Meta Llama 3.2 90B Instruct. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modela el número máximo de tokens de invocación por día para Meta Llama 4 Maverick V1 (el doble para las llamadas entre regiones)	Cada región admitida: 432 000 000	No	Número máximo diario de fichas para la inferencia de modelos de Meta Llama 4 Maverick V1. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y ConverseStream. InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modela el número máximo de tokens de invocación por día para Meta Llama 4 Scout V1 (el doble para las llamadas entre regiones)	Cada región admitida: 432 000 000	No	Número máximo diario de fichas para la inferencia de modelos de Meta Llama 4 Scout V1. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y ConverseStream. InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modela el número máximo de tokens de invocación por día MiniMax M2.5 (el doble para las llamadas entre regiones)	Cada región admitida: 144 000 000 000	No	Número máximo diario de fichas para la inferencia del modelo. MiniMax M2.5 Combina la suma de los tokens de entrada y salida en todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modele el número máximo de tokens de invocación por día para Minimax M2 (el doble para las llamadas entre regiones)	Cada región admitida: 144 000 000 000	No	Número máximo diario de fichas para la inferencia del modelo Minimax M2. Combina la suma de los tokens de entrada y salida en todas las solicitudes a Converse, y ConverseStream. InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modela el número máximo de tokens de invocación por día para Minimax M2.1 (el doble para las llamadas entre regiones)	Cada región admitida: 144 000 000 000	No	Número máximo diario de fichas para la inferencia de modelos para Minimax. M2.1 Combina la suma de los tokens de entrada y salida en todas las solicitudes a Converse, y ConverseStream. InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modele el número máximo de tokens de invocación por día para Ministral 14B 3.0 (el doble para las llamadas entre regiones)	Cada región admitida: 144 000 000 000	No	Número máximo diario de fichas para la inferencia de modelos para el Ministral 14B 3.0. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modele el número máximo de tokens de invocación por día para Ministral 3B 3.0 (el doble para las llamadas entre regiones)	Cada región admitida: 144 000 000 000	No	Número máximo diario de fichas para la inferencia del modelo del Ministral 3B 3.0. Combina la suma de los tokens de entrada y salida en todas las solicitudes a Converse, y ConverseStream. InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modele el número máximo de tokens de invocación por día para Ministral 8B 3.0 (el doble para las llamadas entre regiones)	Cada región admitida: 144 000 000 000	No	Número máximo diario de fichas para la inferencia de modelos para el Ministral 8B 3.0. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modele el número máximo de tokens de invocación por día para el Mistral AI Mistral 7B Instruct (el doble para las llamadas entre regiones)	Cada región admitida: 432 000 000	No	Número máximo diario de fichas para la inferencia de modelos para el Mistral AI Mistral 7B Instruct. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modela el número máximo de tokens de invocación por día para Mistral AI Mistral Large (el doble para las llamadas entre regiones)	Cada región admitida: 432 000 000	No	Número máximo diario de fichas para la inferencia de modelos del Mistral AI Mistral Large. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modela el número máximo de tokens de invocación por día para Mistral AI Mistral Small (el doble para las llamadas entre regiones)	Cada región admitida: 432 000 000	No	Número máximo diario de fichas para la inferencia de modelos del Mistral AI Mistral Small. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modela el número máximo de tokens de invocación por día para Mistral AI Mixtral 8X7B Instruct (el doble para llamadas entre regiones)	Cada región admitida: 432 000 000	No	Número máximo diario de fichas para la inferencia de modelos para Mistral AI Mixtral 8X7B Instruct. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modele el número máximo de tokens de invocación por día para Mistral Devstral 2 123b (el doble para las llamadas entre regiones)	Cada región admitida: 144 000 000 000	No	Número máximo diario de fichas para la inferencia del modelo Mistral Devstral 2 123b. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modela el número máximo de tokens de invocación por día para Mistral Large 3 (el doble para las llamadas entre regiones)	Cada región admitida: 144 000 000 000	No	Número máximo diario de fichas para la inferencia de modelos de Mistral Large 3. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse,, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modele el número máximo de tokens de invocación por día para Mistral Pixtral Large 25.02 V1 (el doble para llamadas entre regiones)	Cada región compatible: 57 600 000	No	Número máximo diario de fichas para la inferencia del modelo Mistral Pixtral Large 25.02 V1. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modela el número máximo de tokens de invocación por día para Moonshot AI Kimi K2.5 (el doble para las llamadas entre regiones)	Cada región admitida: 144 000 000 000	No	Número máximo diario de fichas para la inferencia de modelos de Moonshot AI Kimi. K2.5 Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modele el número máximo de tokens de invocación por día para la NVIDIA Nemotron 3 Super 120B A12B (el doble para las llamadas entre regiones)	Cada región admitida: 144 000 000 000	No	Número máximo diario de tokens para la inferencia de modelos para la NVIDIA Nemotron 3 Super 120B A12B. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modela el número máximo de tokens de invocación por día para NVIDIA Nemotron Nano 2 (el doble para las llamadas entre regiones)	Cada región admitida: 144 000 000 000	No	Número máximo diario de tokens para la inferencia de modelos de NVIDIA Nemotron Nano 2. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modele el número máximo de tokens de invocación por día para NVIDIA Nemotron Nano 2 VL (el doble para las llamadas entre regiones)	Cada región admitida: 144 000 000 000	No	Número máximo diario de tokens para la inferencia de modelos de NVIDIA Nemotron Nano 2 VL. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modele el número máximo de tokens de invocación por día para el Nemotron Nano 3 30B (el doble para las llamadas entre regiones)	Cada región admitida: 144 000 000 000	No	Número máximo diario de fichas para la inferencia del modelo Nemotron Nano 3 30B. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Token máximo por día de invocación de modelos para OpenAI GPT OSS 120B (el doble para llamadas entre regiones)	Cada región admitida: 144 000 000 000	No	Número máximo diario de tokens para la inferencia de modelos para OpenAI GPT OSS 120B. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Token máximo por día de invocación de modelos para OpenAI GPT OSS 20B (el doble para llamadas entre regiones)	Cada región admitida: 144 000 000 000	No	Número máximo diario de tokens para la inferencia de modelos para OpenAI GPT OSS 20B. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Token máximo por día de invocación de modelos para Qwen3 235B a22b 2507 V1 (el doble para llamadas entre regiones)	Cada región admitida: 144 000 000 000	No	Número máximo diario de fichas para la inferencia del modelo Qwen3 235B a22b 2507 V1. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Token máximo por día de invocación de modelos para Qwen3 32B V1 (el doble para las llamadas entre regiones)	Cada región admitida: 144 000 000 000	No	Número máximo diario de fichas para la inferencia del modelo Qwen3 32B V1. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Token máximo por día de invocación de modelos para Qwen3 Coder 30B a3b V1 (el doble para las llamadas entre regiones)	Cada región admitida: 144 000 000 000	No	Número máximo diario de fichas para la inferencia de modelos para Qwen3 Coder 30B a3b V1. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Token máximo por día de invocación de modelos para Qwen3 Coder 480B a35b V1 (el doble para las llamadas entre regiones)	Cada región admitida: 144 000 000 000	No	Número máximo diario de fichas para la inferencia de modelos para Qwen3 Coder 480B a35b V1. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modele el número máximo de tokens de invocación por día para Qwen3 Coder Next (el doble para las llamadas entre regiones)	Cada región admitida: 144 000 000 000	No	Número máximo diario de fichas para la inferencia de modelos para Qwen3 Coder Next. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modele el número máximo de tokens de invocación por día para Qwen3 Next 80B A3B (el doble para las llamadas entre regiones)	Cada región admitida: 144 000 000 000	No	Número máximo diario de fichas para la inferencia del modelo Qwen3 Next 80B A3B. Combina la suma de los tokens de entrada y salida en todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modele el número máximo de tokens de invocación por día para Qwen3 VL 235B A22B (el doble para llamadas entre regiones)	Cada región admitida: 144 000 000 000	No	Número máximo diario de fichas para la inferencia del modelo Qwen3 VL 235B A22B. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modele el número máximo de tokens de invocación por día para Voxtral Mini 1.0 (el doble para las llamadas entre regiones)	Cada región admitida: 144 000 000 000	No	Número máximo diario de fichas para la inferencia de modelos de Voxtral Mini 1.0. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modele el número máximo de tokens de invocación por día para Voxtral Small 1.0 (el doble para las llamadas entre regiones)	Cada región admitida: 144 000 000 000	No	Número máximo diario de fichas para la inferencia de modelos de Voxtral Small 1.0. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modela el número máximo de tokens de invocación por día para el Writer AI Palmyra X4 V1 (el doble para las llamadas entre regiones)	Cada región compatible: 108 000 000	No	Número máximo diario de fichas para la inferencia de modelos del Writer AI Palmyra X4 V1. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modela el número máximo de tokens de invocación por día para el Writer AI Palmyra X5 V1 (el doble para las llamadas entre regiones)	Cada región compatible: 108 000 000	No	Número máximo diario de fichas para la inferencia de modelos del Writer AI Palmyra X5 V1. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modele el número máximo de tokens de invocación por día para Writer Palmyra Vision 7B (el doble para las llamadas entre regiones)	Cada región admitida: 144 000 000 000	No	Número máximo diario de fichas para la inferencia de modelos para Writer Palmyra Vision 7B. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modele el número máximo de tokens de invocación por día para Z.ai GLM 5 (el doble para las llamadas entre regiones)	Cada región admitida: 144 000 000 000	No	Número máximo diario de fichas para la inferencia de modelos para el GLM 5. Z.ai Combina la suma de los tokens de entrada y salida en todas las solicitudes a Converse, y ConverseStream. InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modela el número máximo de tokens de invocación por día Z.ai GLM-4.7 (el doble para las llamadas entre regiones)	Cada región admitida: 144 000 000 000	No	Número máximo diario de fichas para la inferencia del modelo. Z.ai GLM-4.7 Combina la suma de los tokens de entrada y salida en todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modele el número máximo de tokens de invocación por día para Z.ai GLM-4.7 Flash (el doble para las llamadas entre regiones)	Cada región admitida: 144 000 000 000	No	Número máximo diario de fichas para la inferencia de modelos en Flash. Z.ai GLM-4.7 Combina la suma de los tokens de entrada y salida en todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Unidades modelo: rendimientos aprovisionados sin compromiso en todos los modelos básicos	Cada región admitida: 0	Sí	El número máximo de unidades modelo que se pueden distribuir entre los rendimientos aprovisionados sin compromiso para los modelos básicos
Unidades modelo: rendimientos aprovisionados sin compromiso en modelos personalizados	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden distribuir entre los rendimientos aprovisionados sin compromiso para los modelos personalizados
Unidades de modelo por modelo aprovisionado para AI21 Labs Mid Jurassic-2	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para AI21 Labs Mid. Jurassic-2
Unidades de modelo por modelo aprovisionado para AI21 Labs Ultra Jurassic-2	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para AI21 Labs Ultra. Jurassic-2
Unidades de modelo por modelo aprovisionado para Amazon Nova 2 Lite V1.0 (256 K)	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Amazon Nova 2 Lite 256K. V1.0
Unidades de modelo por modelo aprovisionado para Amazon Nova Canvas	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Amazon Nova Canvas.
Unidades de modelo por modelo aprovisionado para Amazon Titan Embeddings G1 - Text	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Amazon Titan Embeddings G1 - Text.
Unidades de modelo por modelo aprovisionado para Amazon Titan Image Generator G1	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Amazon Titan Image Generator G1.
Unidades de modelo por modelo aprovisionado para Amazon Titan Image Generator G2	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Amazon Titan Image Generator G2.
Unidades de modelo por modelo aprovisionado para Amazon Titan Lite V1 4K	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Amazon Titan Text Lite V1 4K.
Unidades de modelo por modelo aprovisionado para Amazon Titan Multimodal Embeddings G1	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Amazon Titan Multimodal Embeddings G1.
Unidades de modelo por modelo aprovisionado para Amazon Titan Text Embeddings versión 2	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Amazon Titan Text Embeddings V2.
Unidades de modelo por modelo aprovisionado para Amazon Titan Text G1 - Express 8K	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Amazon Titan Text G1 - Express 8K.
Unidades de modelo por modelo aprovisionado para Amazon Titan Text Premier V1 32K	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Amazon Titan Text Premier V1 32K.
Unidades de modelo por modelo aprovisionado para Anthropic Claude 3 Haiku 200K	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Anthropic Claude 3 Haiku 200K.
Unidades de modelo por modelo aprovisionado para Anthropic Claude 3 Haiku 48K	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Anthropic Claude 3 Haiku 48K.
Unidades de modelo por modelo aprovisionado para Anthropic Claude 3 Sonnet 200K	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Anthropic Claude 3 Sonnet 200K.
Unidades de modelo por modelo aprovisionado para Anthropic Claude 3 Sonnet 28K	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Anthropic Claude 3 Sonnet 28K.
Unidades de modelo por modelo aprovisionado para Anthropic Claude 3.5 Haiku 16K	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Anthropic Claude 3.5 Haiku 16K.
Unidades de modelo por modelo aprovisionado para Anthropic Claude 3.5 Haiku 200K	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Anthropic Claude 3.5 Haiku 200K.
Unidades de modelo por modelo aprovisionado para Anthropic Claude 3.5 Haiku 64K	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Anthropic Claude 3.5 Haiku 64K.
Unidades de modelo por modelo aprovisionado para Anthropic Claude 3.5 Sonnet 18K	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Anthropic Claude 3.5 Sonnet 18K.
Unidades de modelo por modelo aprovisionado para Anthropic Claude 3.5 Sonnet 200K	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Anthropic Claude 3.5 Sonnet 200K.
Unidades de modelo por modelo aprovisionado para Anthropic Claude 3.5 Sonnet 51K	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Anthropic Claude 3.5 Sonnet 51K.
Unidades de modelo por modelo aprovisionado para Anthropic Claude 3.5 Sonnet V2 18K	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Anthropic Claude 3.5 Sonnet V2 18K.
Unidades de modelo por modelo aprovisionado para Anthropic Claude 3.5 Sonnet V2 200K	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Anthropic Claude 3.5 Sonnet V2 200K.
Unidades de modelo por modelo aprovisionado para Anthropic Claude 3.5 Sonnet V2 51K	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Anthropic Claude 3.5 Sonnet V2 51K.
Unidades de modelo por modelo aprovisionado para Anthropic Claude 3.7 Sonnet 18K V1.0	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Anthropic Claude 3.7 Sonnet 18K. V1.0
Unidades de modelo por modelo aprovisionado para Anthropic Claude 3.7 Sonnet 200K V1.0	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para el Anthropic Claude 3.7 Sonnet 200K. V1.0
Unidades de modelo por modelo aprovisionado para Anthropic Claude 3.7 Sonnet 51K V1.0	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para el Anthropic Claude 3.7 Sonnet 51K. V1.0
Unidades de modelo por modelo aprovisionado para Anthropic Claude Instant V1 100K	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Anthropic Claude Instant V1 100K.
Unidades de modelo por modelo aprovisionado para Anthropic Claude V2 100K	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Anthropic Claude V2 100K.
Unidades de modelo por modelo aprovisionado para Anthropic Claude V2 18K	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Anthropic Claude V2 18K.
Unidades de modelo por modelo aprovisionado para Anthropic Claude 18K V2.1	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Anthropic Claude 18K. V2.1
Unidades de modelo por modelo aprovisionado para Anthropic Claude (200K) V2.1	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Anthropic Claude 200K. V2.1
Unidades de modelo por modelo aprovisionado para Cohere Command	Cada región admitida: 0	Sí	El número máximo de unidades modelo que se pueden asignar a un modelo aprovisionado para Cohere Command.
Unidades de modelo por modelo aprovisionado para Cohere Command Light	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Cohere Command Light.
Unidades de modelo por modelo aprovisionado para Cohere Command R	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para el Cohere Command R 128k.
Unidades de modelo por modelo aprovisionado para Cohere Command R Plus	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para el Cohere Command R Plus 128k.
Unidades de modelo por modelo aprovisionado para Cohere Embed English	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Cohere Embed English.
Unidades de modelo por modelo aprovisionado para Cohere Embed Multilingual	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Cohere Embed Multilingual.
Unidades de modelo por modelo aprovisionado para Meta Llama 2 13B	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Meta Llama 2 13B.
Unidades de modelo por modelo aprovisionado para Meta Llama 2 70B	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Meta Llama 2 70B.
Unidades de modelo por modelo aprovisionadas para Meta Llama 2 Chat 13B	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Meta Llama 2 Chat 13B.
Unidades de modelo por modelo aprovisionadas para Meta Llama 2 Chat 70B	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Meta Llama 2 Chat 70B.
Unidades de modelo por modelo aprovisionado para Meta Llama 3 70B Instruct	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Meta Llama 3 70B Instruct.
Unidades de modelo por modelo aprovisionado para Meta Llama 3 8B Instruct	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Meta Llama 3 8B Instruct.
Unidades de modelo por modelo aprovisionado para Meta Llama 3.1 70B Instruct	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Meta Llama 3.1 70B Instruct.
Unidades de modelo por modelo aprovisionado para Meta Llama 3.1 8B Instruct	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Meta Llama 3.1 8B Instruct.
Unidades de modelo por modelo aprovisionado para Meta Llama 3.2 11B Instruct	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Meta Llama 3.2 11B Instruct.
Unidades de modelo por modelo aprovisionado para Meta Llama 3.2 1B Instruct	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Meta Llama 3.2 1B Instruct.
Unidades de modelo por modelo aprovisionado para Meta Llama 3.2 3B Instruct	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Meta Llama 3.2 3B Instruct.
Unidades de modelo por modelo aprovisionado para Meta Llama 3.2 90B Instruct	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Meta Llama 3.2 90B Instruct.
Unidades de modelo por modelo aprovisionado para Mistral Large 2407	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para el Mistral Large 2407.
Unidades de modelo por modelo aprovisionado para Mistral Small	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Mistral Small.
Unidades de modelo por modelo aprovisionado para Stable Diffusion XL 0.8 Stability.ai	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Stable Diffusion XL 0.8 Stability.ai
Unidades de modelo por modelo aprovisionado para Stability.ai Stable Diffusion XL 1.0	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Stability.ai Stable Diffusion XL 1.0.
Unidades de modelo por modelo aprovisionado para la variante de longitud de contexto de 128 000 para Amazon Nova Micro	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para la variante de longitud de contexto de 128 000 para Amazon Nova Micro
Unidades de modelo por modelo aprovisionado para la variante de longitud de contexto de 24 000 para Amazon Nova Lite	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para la variante de longitud de contexto de 24 000 para Amazon Nova Lite
Unidades de modelo por modelo aprovisionado para la variante de longitud de contexto de 24 000 para Amazon Nova Micro	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para la variante de longitud de contexto de 24 000 para Amazon Nova Micro
Unidades de modelo por modelo aprovisionado para la variante de longitud de contexto de 24 000 para Amazon Nova Pro	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para la variante de longitud de contexto de 24 000 para Amazon Nova Pro
Unidades de modelo por modelo aprovisionado para la variante de longitud de contexto de 300 000 para Amazon Nova Lite	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para la variante de longitud de contexto de 300 000 para Amazon Nova Lite
Unidades de modelo por modelo aprovisionado para la variante de longitud de contexto de 300 000 para Amazon Nova Pro	Cada región admitida: 0	Sí	El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para la variante de longitud de contexto de 300 000 para Amazon Nova Pro.
Las unidades modelo, con el compromiso de aprovisionamiento integral, se crearon para Meta Llama 4 Scout 17B Instruct 10M	Cada región admitida: 0	Sí	El número máximo de unidades modelo que se pueden asignar a un rendimiento aprovisionado creado para Meta Llama 4 Scout 17B Instruct 10M, con compromiso.
Modelo de unidades, con compromiso, para aprovisionamiento integral creado para Meta Llama 4 Scout 17B Instruct 128K	Cada región admitida: 0	Sí	El número máximo de unidades modelo que se pueden asignar a un rendimiento aprovisionado creado para Meta Llama 4 Scout 17B Instruct 128K, con compromiso.
Modelo de unidades, con compromiso, para Provisioned Through creado para Meta Maverick 4 Scout 17B Instruct 128K	Cada región admitida: 0	Sí	El número máximo de unidades modelo que se pueden asignar a un rendimiento aprovisionado creado para Meta Llama 4 Maverick 17B Instruct 128K, con compromiso.
Modelo de unidades, con compromiso, para Provisioned Through creado para Meta Maverick 4 Scout 17B Instruct 1M	Cada región admitida: 0	Sí	El número máximo de unidades modelo que se pueden asignar a un rendimiento aprovisionado creado para Meta Llama 4 Maverick 17B Instruct 1M, con compromiso.
No-commitment unidades modelo para el rendimiento aprovisionado creadas para el modelo base Amazon Nova 2 Lite 256K V1.0	Cada región admitida: 0	No	El número máximo de unidades de modelo que se pueden asignar a un rendimiento aprovisionado creado para el modelo base Amazon Nova 2 Lite ( V1.0 256 K), sin compromiso
No-commitment unidades modelo para el rendimiento aprovisionado creadas para el modelo personalizado Amazon Nova 2 Lite 256K V1.0	Cada región admitida: 0	No	El número máximo de unidades de modelo que se pueden asignar a un rendimiento aprovisionado creado para el modelo personalizado Amazon Nova 2 Lite V1.0 256K, sin compromiso.
Número de enrutadores personalizados de petición por cuenta	Cada región admitida: 500	No	Número máximo de enrutadores personalizados de petición que puede crear por cuenta y región-
On-Demand, solicitudes de inferencia de modelos con latencia optimizada por minuto para Amazon Nova Pro V1	Cada región admitida: 10	No	El número máximo de solicitudes bajo demanda y optimizadas para la latencia que puede enviar para la inferencia de modelos en un minuto para Amazon Nova Pro V1. La cuota considera la suma combinada de Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
On-Demand, solicitudes de inferencia de modelos con latencia optimizada por minuto para Meta Llama 3.1 405B Instruct	Cada región admitida: 100	No	El número máximo de solicitudes bajo demanda y optimizadas para la latencia que puede enviar para la inferencia de modelos en un minuto para Meta Llama 3.1 405B Instruct. La cuota considera la suma combinada de Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
On-Demand, solicitudes de inferencia de modelos con latencia optimizada por minuto para Meta Llama 3.1 70B Instruct	Cada región admitida: 100	No	El número máximo de solicitudes bajo demanda y optimizadas para la latencia que puede enviar para la inferencia de modelos en un minuto para Meta Llama 3.1 70B Instruct. La cuota considera la suma combinada de Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
On-Demand, tokens de inferencia de modelos con latencia optimizada por minuto para Amazon Nova Pro V1	Cada región admitida: 40 000	No	La cantidad máxima de tokens optimizados para la latencia bajo demanda que puede enviar para la inferencia de modelos en un minuto para Amazon Nova Pro V1. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
On-Demand, modelos de inferencia optimizados con latencia optimizada por minuto para Meta Llama 3.1 405B Instruct	Cada región admitida: 40 000	No	La cantidad máxima de tokens optimizados para la latencia bajo demanda que puede enviar para la inferencia de modelos en un minuto para Meta Llama 3.1 405B Instruct. La cuota considera la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
On-Demand, modelos de inferencia optimizados con latencia optimizada por minuto para Meta Llama 3.1 70B Instruct	Cada región admitida: 40 000	No	La cantidad máxima de tokens optimizados para la latencia bajo demanda que puede enviar para la inferencia de modelos en un minuto para Meta Llama 3.1 70B Instruct. La cuota considera la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand InvokeModel solicitudes simultáneas asíncronas para Amazon Nova 2 Multimodal Embeddings V1	Cada región admitida: 30	No	El número máximo de solicitudes de inferencia de modelos simultáneos asíncronos que puede enviar para Amazon Nova 2 Multimodal Embeddings V1. La cuota considera la suma combinada de Converse,, y. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand InvokeModel solicitudes simultáneas asíncronas para Marengo Embed 3.0 TwelveLabs	Cada región admitida: 10	Sí	El número máximo de solicitudes de inferencia de modelos asíncronos simultáneos que puede enviar para Marengo Embed 3.0. TwelveLabs La cuota considera la suma combinada de Converse,, y. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand InvokeModel solicitudes simultáneas para Amazon Nova 2 Sonic	Cada región admitida: 20	No	El número máximo de solicitudes de inferencia de modelos simultáneas que puede enviar para Amazon Nova 2 Sonic. La cuota considera la suma combinada de Converse, ConverseStream, InvokeModel y. InvokeModelWithResponseStream
On-demand InvokeModel solicitudes simultáneas para Amazon Nova Reel1.0	Cada región admitida: 10	No	El número máximo de solicitudes de inferencia de modelos simultáneas que puede enviar para Amazon Nova Reel 1.0. La cuota considera la suma combinada de Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
On-demand InvokeModel solicitudes simultáneas para Amazon Nova Reel1.1	Cada región admitida: 3	No	El número máximo de solicitudes de inferencia de modelos simultáneas que puede enviar para Amazon Nova Reel 1.1. La cuota considera la suma combinada de Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
On-demand InvokeModel solicitudes simultáneas para Amazon Nova Sonic	Cada región admitida: 20	No	El número máximo de solicitudes simultáneas que puede enviar para la inferencia de modelos para Amazon Nova Sonic.
On-demand InvokeModel solicitudes simultáneas de Twelve Labs Marengo	Cada región admitida: 30	No	El número máximo de InvokeModel solicitudes simultáneas que puede enviar para la inferencia de modelos para Twelve Labs Marengo.
On-demand InvokeModel solicitudes simultáneas para Twelve Labs Pegasus	Cada región admitida: 30	Sí	El número máximo de InvokeModel solicitudes simultáneas que puede enviar para la inferencia del modelo Pegasus de Twelve Labs.
On-demand Solicitudes de inferencia de modelos con latencia optimizada por minuto para Anthropic Claude 3.5 Haiku	Cada región admitida: 100	No	El número máximo de veces que puede realizar una llamada a la inferencia de modelos en un minuto. La cuota considera la suma combinada de Converse InvokeModel y, InvokeModelWithResponseStream para Anthropic Claude 3.5 ConverseStream Haiku, si se ha configurado la optimización de la latencia.
On-demand Símbolos de inferencia del modelo con latencia optimizada por minuto para Anthropic Claude 3.5 Haiku	Cada región admitida: 500 000	No	La cantidad máxima de tokens bajo demanda que puede enviar para la inferencia del modelo en un minuto. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse y, en el caso de Anthropic Claude 3.5 ConverseStream Haiku, InvokeModel si se InvokeModelWithResponseStream ha configurado la optimización de la latencia.
On-demand modele solicitudes simultáneas de inferencia para Luma Ray V2	Cada región admitida: 1	No	El número máximo de solicitudes simultáneas que puede enviar para la inferencia de modelos para Luma Ray V2. La cuota considera la suma combinada de Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand solicitudes de inferencia de modelos por minuto para AI21 Labs Jamba 1.5 Large	Cada región admitida: 100	No	La cantidad máxima de veces que puede realizar una inferencia de modelos en un minuto para AI21 Labs Jamba 1.5 Large. La cuota considera la suma combinada de las solicitudes de Converse y InvokeModel
On-demand solicitudes de inferencia de modelos por minuto para AI21 Labs Jamba 1.5 Mini	Cada región admitida: 100	No	El número máximo de veces que puede realizar una llamada a la inferencia de modelos en un minuto para el Jamba 1.5 Mini de AI21 Labs. La cuota considera la suma combinada de las solicitudes de Converse y InvokeModel
On-demand solicitudes de inferencia de modelos por minuto para Amazon Nova 2 Multimodal Embeddings V1	Cada región admitida: 2000	No	El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Amazon Nova 2 Multimodal Embeddings V1. Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand solicitudes de inferencia de modelos por minuto para Amazon Nova Canvas	Cada región admitida: 100	No	El número máximo de solicitudes que puede enviar para la inferencia de modelos en un minuto para Amazon Nova Canvas. La cuota considera la suma combinada de Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
On-demand solicitudes de inferencia de modelos por minuto para Amazon Nova Lite	us-east-1: 2000 eu-west-2:2.000 Cada una de las demás regiones compatibles: 200	No	La cantidad máxima de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Amazon Nova Lite. Esta cuota representa el número total de solicitudes y acciones dirigidas a The Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand solicitudes de inferencia de modelos por minuto para Amazon Nova Micro	us-east-1: 2000 eu-west-2:2.000 Cada una de las demás regiones compatibles: 200	No	La cantidad máxima de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Amazon Nova Micro. Esta cuota representa el número total de solicitudes y acciones dirigidas a The Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand solicitudes de inferencia de modelos por minuto para Amazon Nova Pro	Cada región admitida: 250	No	La cantidad máxima de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Amazon Nova Pro. Esta cuota representa el número total de solicitudes a Converse InvokeModel y InvokeModelWithResponseStream de ConverseStream acciones.
On-demand solicitudes de inferencia de modelos por minuto para Amazon Retrower 1.0	Cada región admitida: 200	No	El número máximo de veces que puedes llamar InvokeModel en un minuto para Amazon R 1.0.
On-demand solicitudes de inferencia de modelos por minuto para Amazon Titan Image Generator G1	Cada región admitida: 60	No	El número máximo de veces que puede llamar InvokeModel en un minuto a Amazon Titan Image Generator G1.
On-demand solicitudes de inferencia de modelos por minuto para Amazon Titan Image Generator G1 V2	Cada región admitida: 60	No	El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Amazon Titan Image Generator G1 V2. Esta cuota representa el número total de solicitudes a Converse y de acciones ConverseStream. InvokeModel InvokeModelWithResponseStream
On-demand solicitudes de inferencia de modelos por minuto para Amazon Titan Multimodal Embeddings G1	Cada región admitida: 2000	No	El número máximo de veces que puede llamar InvokeModel en un minuto a Amazon Titan Multimodal Embeddings G1.
On-demand solicitudes de inferencia de modelos por minuto para Amazon Titan Text Embeddings	Cada región admitida: 2000	No	El número máximo de veces que puedes llamar InvokeModel en un minuto para Amazon Titan Text Embeddings
On-demand solicitudes de inferencia de modelos por minuto para Amazon Titan Text Embeddings V2	Cada región admitida: 6000	No	El número máximo de veces que puedes llamar InvokeModel en un minuto para Amazon Titan Text Embeddings V2
On-demand solicitudes de inferencia de modelos por minuto para Amazon Titan Text Express	Cada región admitida: 400	No	El número máximo de veces que puede realizar una llamada a la inferencia de modelos en un minuto. La cuota considera la suma combinada de Converse InvokeModel y ConverseStream, InvokeModelWithResponseStream para Amazon Titan Text Express
On-demand solicitudes de inferencia de modelos por minuto para Amazon Titan Text Premier	Cada región admitida: 100	No	El número máximo de veces que puede realizar una llamada a la inferencia de modelos en un minuto. La cuota considera la suma combinada de Converse InvokeModel y ConverseStream, InvokeModelWithResponseStream para Amazon Titan Text Premier
On-demand modele las solicitudes de inferencia por minuto para Anthropic Claude 3 Haiku	us-east-1: 1000 us-west-2: 1000 ap-northeast-1:200 ap-southeast-1:200 Cada una de las demás regiones compatibles: 400	No	El número máximo de veces que puede realizar una llamada a la inferencia de modelos en un minuto. La cuota considera la suma combinada de Converse InvokeModel y InvokeModelWithResponseStream , en el caso de Anthropic ConverseStream, Claude 3 Haiku.
On-demand modela las solicitudes de inferencia por minuto para Anthropic Claude 3 Opus	Cada región admitida: 50	No	El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Anthropic Claude 3 Opus. Esta cuota representa el número total de solicitudes a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele las solicitudes de inferencia por minuto para Anthropic Claude 3 Sonnet	us-east-1: 500 us-west-2: 500 Cada una de las demás regiones compatibles: 100	No	El número máximo de veces que puede realizar una llamada a la inferencia de modelos en un minuto. La cuota considera la suma combinada de Converse InvokeModel y Anthropic ConverseStream Claude 3 InvokeModelWithResponseStream Sonnet.
On-demand modela las solicitudes de inferencia por minuto para Anthropic Claude 3.5 Haiku	us-west-1:400 Cada una de las demás regiones compatibles: 1000	No	El número máximo de solicitudes bajo demanda que se pueden enviar para la inferencia de modelos en un minuto para Anthropic Claude 3.5 Haiku. Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele las solicitudes de inferencia por minuto para Anthropic Claude 3.5 Sonnet	us-west-2:250 ap-northeast-1:20 ap-southeast-1:20 eu-central-1:20 eu-west-1: 20 eu-west-3:20 Cada una de las demás regiones admitidas: 50	No	El número máximo de veces que se puede realizar una inferencia de modelos en un minuto para el Soneto Anthropic Claude 3.5. La cuota considera la suma combinada de Converse,, y ConverseStream. InvokeModel InvokeModelWithResponseStream
On-demand modele las solicitudes de inferencia por minuto para Anthropic Claude 3.5 Sonnet V2	us-west-2:250 Cada una de las demás regiones admitidas: 50	No	El número máximo de veces que se puede realizar una inferencia de modelos en un minuto para el Sonnet V2 de Anthropic Claude 3.5. La cuota considera la suma combinada de Converse, y ConverseStream. InvokeModel InvokeModelWithResponseStream
On-demand modele las solicitudes de inferencia por minuto para Anthropic Claude 3.7 Sonnet V1	Cada región admitida: 125	No	El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para el Sonnet V1 de Anthropic Claude 3.7. Esta cuota representa el número total de solicitudes a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele las solicitudes de inferencia por minuto para Anthropic Claude Opus 4.6 V1	Cada región admitida: 5000	No	El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Anthropic Claude Opus 4.6 V1. Esta cuota representa el número total de solicitudes enviadas a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele las solicitudes de inferencia por minuto para Anthropic Claude Sonnet 4.6	Cada región admitida: 5000	No	El número máximo de solicitudes bajo demanda que se pueden enviar para la inferencia de modelos en un minuto para Anthropic Claude Sonnet 4.6. Esta cuota representa el número total de solicitudes enviadas a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand solicitudes de inferencia de modelos por minuto para Cohere Command R	Cada región admitida: 400	No	El número máximo de veces que puede realizar una llamada a la inferencia de modelos en un minuto. La cuota considera la suma combinada de Converse InvokeModel y ConverseStream, InvokeModelWithResponseStream para Cohere Command, R 128k.
On-demand solicitudes de inferencia de modelos por minuto para Cohere Command R Plus	Cada región admitida: 400	No	El número máximo de veces que puede realizar una llamada a la inferencia de modelos en un minuto. La cuota considera la suma combinada de Converse InvokeModel y ConverseStream, InvokeModelWithResponseStream para Cohere Command R Plus 128k.
On-demand modele las solicitudes de inferencia por minuto para Cohere Embed English	Cada región admitida: 2000	No	El número máximo de veces que puede llamar InvokeModel en un minuto para Cohere Embed English.
On-demand modele las solicitudes de inferencia por minuto para Cohere Embed Multilingual	Cada región admitida: 2000	No	El número máximo de veces que puede llamar InvokeModel en un minuto para Cohere Embed Multilingual.
On-demand modele las solicitudes de inferencia por minuto para Cohere Embed V4	Cada región admitida: 1000	No	La cantidad máxima de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Cohere Embed V4. Esta cuota representa el número total de solicitudes a Converse y a las acciones ConverseStream. InvokeModel InvokeModelWithResponseStream
On-demand modele las solicitudes de inferencia por minuto para Cohere Retrower 3.5	Cada región admitida: 250	No	El número máximo de veces que puede llamar InvokeModel en un minuto para Cohere Rrejn 3.5.
On-demand modele las solicitudes de inferencia por minuto para V3 V1 DeepSeek	Cada región admitida: 10 000	No	El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para DeepSeek la V3 V1. Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele las solicitudes de inferencia por minuto para DeepSeek V3.2	Cada región admitida: 10 000	No	El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para. DeepSeek V3.2 Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
On-demand modele las solicitudes de inferencia por minuto para GPT OSS Safeguard 120B	Cada región admitida: 10 000	No	El número máximo de solicitudes bajo demanda que puedes enviar para la inferencia de modelos en un minuto para GPT OSS Safeguard 120B. Esta cuota representa el número total de solicitudes enviadas a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele las solicitudes de inferencia por minuto para GPT OSS Safeguard 20B	Cada región admitida: 10 000	No	El número máximo de solicitudes bajo demanda que puedes enviar para la inferencia de modelos en un minuto para GPT OSS Safeguard 20B. Esta cuota representa el número total de solicitudes enviadas a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele las solicitudes de inferencia por minuto para Gemma 3 12B	Cada región admitida: 10 000	No	El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Gemma 3 12B. Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele las solicitudes de inferencia por minuto para Gemma 3 27B	Cada región admitida: 10 000	No	El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Gemma 3 27B. Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele las solicitudes de inferencia por minuto para Gemma 3 4B	Cada región admitida: 10 000	No	El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Gemma 3 4B. Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele las solicitudes de inferencia por minuto para Kimi K2 Thinking	Cada región admitida: 10 000	No	El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Kimi K2 Thinking. Esta cuota representa el número total de solicitudes a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele las solicitudes de inferencia por minuto para Magistral Small 1.2	Cada región admitida: 10 000	No	El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Magistral Small 1.2. Esta cuota representa el número total de solicitudes enviadas a Converse y de acciones ConverseStream. InvokeModel InvokeModelWithResponseStream
On-demand modele las solicitudes de inferencia por minuto para Meta Llama 3 70B Instruct	Cada región admitida: 400	No	El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Meta Llama 3 70B Instruct. Esta cuota representa el número total de solicitudes a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele las solicitudes de inferencia por minuto para Meta Llama 3 8B Instruct	Cada región admitida: 800	No	El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Meta Llama 3 8B Instruct. Esta cuota representa el número total de solicitudes a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele las solicitudes de inferencia por minuto para Meta Llama 3.1 405B Instruct	Cada región admitida: 200	No	El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Meta Llama 3.1 405B Instruct. Esta cuota representa el número total de solicitudes a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele las solicitudes de inferencia por minuto para Meta Llama 3.1 70B Instruct	Cada región admitida: 400	No	El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Meta Llama 3.1 70B Instruct. Esta cuota representa el número total de solicitudes a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele las solicitudes de inferencia por minuto para Meta Llama 3.1 8B Instruct	Cada región admitida: 800	No	El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Meta Llama 3.1 8B Instruct. Esta cuota representa el número total de solicitudes a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele las solicitudes de inferencia por minuto para Meta Llama 3.2 11B Instruct	Cada región admitida: 400	No	El número máximo de veces que puede realizar una llamada a la inferencia de modelos en un minuto para Meta Llama 3.2 11B Instruct. La cuota considera la suma combinada de las solicitudes de InvokeModel, InvokeModelWithResponseStream, Converse y. ConverseStream
On-demand modele las solicitudes de inferencia por minuto para Meta Llama 3.2 1B Instruct	Cada región admitida: 800	No	El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Meta Llama 3.2 1B Instruct. Esta cuota representa el número total de solicitudes a Converse y de acciones ConverseStream. InvokeModel InvokeModelWithResponseStream
On-demand modele las solicitudes de inferencia por minuto para Meta Llama 3.2 3B Instruct	Cada región admitida: 800	No	El número máximo de veces que puede realizar una llamada a la inferencia de modelos en un minuto para Meta Llama 3.2 3B Instruct. La cuota considera la suma combinada de las solicitudes de InvokeModel, InvokeModelWithResponseStream, Converse y. ConverseStream
On-demand modele las solicitudes de inferencia por minuto para Meta Llama 3.2 90B Instruct	Cada región admitida: 400	No	El número máximo de veces que puede realizar una llamada a la inferencia de modelos en un minuto para Meta Llama 3.2 90B Instruct. La cuota considera la suma combinada de las solicitudes de InvokeModel, InvokeModelWithResponseStream, Converse y. ConverseStream
On-demand modele las solicitudes de inferencia por minuto para Meta Llama 3.3 70B Instruct	Cada región admitida: 400	No	El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Meta Llama 3.3 70B Instruct. Esta cuota representa el número total de solicitudes a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele las solicitudes de inferencia por minuto para MiniMax M2.5	Cada región admitida: 10 000	No	El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para. MiniMax M2.5 Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
On-demand modele las solicitudes de inferencia por minuto para Minimax M2	Cada región admitida: 10 000	No	El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Minimax M2. Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele las solicitudes de inferencia por minuto para Minimax M2.1	Cada región admitida: 10 000	No	El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Minimax. M2.1 Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele las solicitudes de inferencia por minuto para Ministral 14B 3.0	Cada región admitida: 10 000	No	El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para el Ministral 14B 3.0. Esta cuota representa el número total de solicitudes enviadas a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele las solicitudes de inferencia por minuto para Ministral 3B 3.0	Cada región admitida: 10 000	No	El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para el Ministral 3B 3.0. Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele las solicitudes de inferencia por minuto para Ministral 8B 3.0	Cada región admitida: 10 000	No	El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para el Ministral 8B 3.0. Esta cuota representa el número total de solicitudes enviadas a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele las solicitudes de inferencia por minuto para Mistral 7B Instruct	Cada región admitida: 800	No	El número máximo de veces que puede llamar en un minuto para Mistral InvokeModel mistral-7b-instruct-v0
On-demand modele las solicitudes de inferencia por minuto para Mistral AI Mistral Small	Cada región admitida: 400	No	El número máximo de veces que puedes llamar InvokeModel y InvokeModelWithResponseStream en un minuto para Mistral AI Mistral Small
On-demand modele las solicitudes de inferencia por minuto para Mistral Devstral 2 123b	Cada región admitida: 10 000	No	El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Mistral Devstral 2 123b. Esta cuota representa el número total de solicitudes enviadas a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele las solicitudes de inferencia por minuto para Mistral Large	Cada región admitida: 400	No	El número máximo de veces que puedes llamar InvokeModel y InvokeModelWithResponseStream en un minuto para Mistral mistral-large-2402-v1
On-demand modele las solicitudes de inferencia por minuto para Mistral Large 2407	Cada región admitida: 400	No	El número máximo de veces que puede realizar una llamada a la inferencia de modelos en un minuto para el Mistral Large 2407. La cuota considera la suma combinada de las solicitudes de InvokeModel, Converse y InvokeModelWithResponseStream ConverseStream
On-demand modele las solicitudes de inferencia por minuto para Mistral Large 3	Cada región admitida: 10 000	No	El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Mistral Large 3. Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele las solicitudes de inferencia por minuto para Mistral Mixtral 8x7b Instruct	Cada región admitida: 400	No	El número máximo de veces que puedes llamar en un minuto a Mistral mixtral-8x7b-v0 InvokeModel
On-demand modele las solicitudes de inferencia por minuto para Moonshot AI Kimi K2.5	Cada región admitida: 10 000	No	El número máximo de solicitudes bajo demanda que puedes enviar para la inferencia de modelos en un minuto para Moonshot AI Kimi. K2.5 Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand solicitudes de inferencia de modelos por minuto para NVIDIA Nemotron 3 Super 120B A12B	Cada región admitida: 10 000	No	El número máximo de solicitudes bajo demanda que puedes enviar para la inferencia de modelos en un minuto para la NVIDIA Nemotron 3 Super 120B A12B. Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele las solicitudes de inferencia por minuto para NVIDIA Nemotron Nano 2	Cada región admitida: 10 000	No	El número máximo de solicitudes bajo demanda que puedes enviar para la inferencia de modelos en un minuto para NVIDIA Nemotron Nano 2. Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele las solicitudes de inferencia por minuto para NVIDIA Nemotron Nano 2 VL	Cada región admitida: 10 000	No	El número máximo de solicitudes bajo demanda que puedes enviar para la inferencia de modelos en un minuto para NVIDIA Nemotron Nano 2 VL. Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele las solicitudes de inferencia por minuto para el Nemotron Nano 3 30B	Cada región admitida: 10 000	No	El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para el Nemotron Nano 3 30B. Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand solicitudes de inferencia de modelos por minuto para OpenAI GPT OSS 120B	Cada región admitida: 10 000	No	El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para OpenAI GPT OSS 120B. Esta cuota representa el número total de solicitudes a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand solicitudes de inferencia de modelos por minuto para OpenAI GPT OSS 20B	Cada región admitida: 10 000	No	El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para OpenAI GPT OSS 20B. Esta cuota representa el número total de solicitudes a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele las solicitudes de inferencia por minuto para Qwen3 235B a22b 2507 V1	Cada región admitida: 10 000	No	El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Qwen3 235B a22b 2507 V1. Esta cuota representa el número total de solicitudes a Converse y a las acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele las solicitudes de inferencia por minuto para Qwen3 32B V1	Cada región admitida: 10 000	No	El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Qwen3 32B V1. Esta cuota representa el número total de solicitudes a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele las solicitudes de inferencia por minuto para Qwen3 Coder 30B a3b V1	Cada región admitida: 10 000	No	El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Qwen3 Coder 30B a3b V1. Esta cuota representa el número total de solicitudes a Converse y a las acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele las solicitudes de inferencia por minuto para Qwen3 Coder 480B a35b V1	Cada región admitida: 10 000	No	El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Qwen3 Coder 480B a35b V1. Esta cuota representa el número total de solicitudes a Converse y a las acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele las solicitudes de inferencia por minuto para Qwen3 Coder Next	Cada región admitida: 10 000	No	El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Qwen3 Coder Next. Esta cuota representa el número total de solicitudes a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele las solicitudes de inferencia por minuto para Qwen3 Next 80B A3B	Cada región admitida: 10 000	No	El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para el Qwen3 Next 80B A3B. Esta cuota representa el número total de solicitudes a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele las solicitudes de inferencia por minuto para Qwen3 VL 235B A22B	Cada región admitida: 10 000	No	El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para el Qwen3 VL 235B A22B. Esta cuota representa el número total de solicitudes a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele las solicitudes de inferencia por minuto para Stability.ai Stable Diffusion 3 Large	Cada región admitida: 15	No	El número máximo de veces que puedes llamar InvokeModel en un minuto para Stability.ai Stable Diffusion 3 Large.
On-demand modele las solicitudes de inferencia por minuto para Stability.ai Stable Diffusion 3 Medium	Cada región admitida: 60	No	El número máximo de veces que puedes llamar InvokeModel en un minuto a Stability.ai Stable Diffusion 3 Medium
On-demand modele las solicitudes de inferencia por minuto para Stability.ai Stable Diffusion 3.5 Large	Cada región admitida: 15	No	El número máximo de veces que puedes llamar InvokeModel en un minuto con Stability.ai Stable Diffusion 3.5 Large.
On-demand modele las solicitudes de inferencia por minuto para Stability.ai Stable Image Core	Cada región admitida: 90	No	El número máximo de veces que puede llamar InvokeModel en un minuto a Stability.ai Stable Image Core.
On-demand modele las solicitudes de inferencia por minuto para Stability.ai Stable Image Ultra	Cada región admitida: 10	No	El número máximo de veces que puede llamar InvokeModel en un minuto a Stability.ai Stable Image Ultra.
On-demand modele las solicitudes de inferencia por minuto para Stable Image Conservative Upscale	Cada región admitida: 2	No	La cantidad máxima de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Stable Image Conservative Upscale. Esta cuota representa el número total de solicitudes a Converse y de acciones ConverseStream. InvokeModel InvokeModelWithResponseStream
On-demand modele las solicitudes de inferencia por minuto para Stable Image Control Sketch	Cada región admitida: 10	No	La cantidad máxima de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Stable Image Control Sketch. Esta cuota representa el número total de solicitudes a Converse InvokeModel y InvokeModelWithResponseStream a las ConverseStream acciones.
On-demand modele las solicitudes de inferencia por minuto para una estructura de control de imagen estable	Cada región admitida: 10	No	La cantidad máxima de solicitudes bajo demanda que puede enviar para la inferencia de modelos en una estructura de control de imagen estable. Esta cuota representa el número total de solicitudes a Converse InvokeModel y InvokeModelWithResponseStream a las ConverseStream acciones.
On-demand modele las solicitudes de inferencia por minuto para Stable Image Creative Upscale	Cada región admitida: 2	No	La cantidad máxima de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Stable Image Creative Upscale. Esta cuota representa el número total de solicitudes a Converse y de acciones ConverseStream. InvokeModel InvokeModelWithResponseStream
On-demand modele las solicitudes de inferencia por minuto para el objeto Stable Image Erase	Cada región admitida: 10	No	La cantidad máxima de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Stable Image Erase Object. Esta cuota representa el número total de solicitudes a Converse InvokeModel y InvokeModelWithResponseStream a las ConverseStream acciones.
On-demand modele las solicitudes de inferencia por minuto para Stable Image Fast Upscale	Cada región admitida: 10	No	La cantidad máxima de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Stable Image Fast Upscale. Esta cuota representa el número total de solicitudes a Converse y de acciones ConverseStream. InvokeModel InvokeModelWithResponseStream
On-demand modele las solicitudes de inferencia por minuto para Stable Image Inpaint	Cada región admitida: 10	No	La cantidad máxima de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Stable Image Inpaint. Esta cuota representa el número total de solicitudes a Converse y a las acciones ConverseStream. InvokeModel InvokeModelWithResponseStream
On-demand modele las solicitudes de inferencia por minuto para Stable Image Outpaint	Cada región admitida: 2	No	La cantidad máxima de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Stable Image Outpaint. Esta cuota representa el número total de solicitudes a Converse y a las acciones ConverseStream. InvokeModel InvokeModelWithResponseStream
On-demand modele las solicitudes de inferencia por minuto para Stable Image Remove Background	Cada región admitida: 10	No	La cantidad máxima de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Stable Image Remove Background. Esta cuota representa el número total de solicitudes a Converse InvokeModel y InvokeModelWithResponseStream a las ConverseStream acciones.
On-demand modele las solicitudes de inferencia por minuto para Stable Image Search y Recolor	Cada región admitida: 10	No	El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Stable Image Search and Recolor. Esta cuota representa el número total de solicitudes a Converse y de acciones ConverseStream. InvokeModel InvokeModelWithResponseStream
On-demand modele las solicitudes de inferencia por minuto para Stable Image Search and Replace	Cada región admitida: 10	No	El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Stable Image Search and Replace. Esta cuota representa el número total de solicitudes a Converse InvokeModel y InvokeModelWithResponseStream de ConverseStream acciones.
On-demand modele las solicitudes de inferencia por minuto para Stable Image Style Guide	Cada región admitida: 10	No	La cantidad máxima de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Stable Image Style Guide. Esta cuota representa el número total de solicitudes a Converse InvokeModel y InvokeModelWithResponseStream de ConverseStream acciones.
On-demand modele las solicitudes de inferencia por minuto para Stable Image Style Transfer	Cada región admitida: 10	No	La cantidad máxima de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Stable Image Style Transfer. Esta cuota representa el número total de solicitudes a Converse InvokeModel y InvokeModelWithResponseStream de ConverseStream acciones.
On-demand modele las solicitudes de inferencia por minuto para Twelve Labs Marengo	Cada región admitida: 100	No	La cantidad máxima de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Twelve Labs Marengo. Esta cuota representa el número total de solicitudes a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele las solicitudes de inferencia por minuto para Twelve Labs Pegasus	Cada región admitida: 60	Sí	La cantidad máxima de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Twelve Labs Pegasus. La cuota considera la suma combinada de Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele las solicitudes de inferencia por minuto para TwelveLabs Marengo Embed 3.0	Cada región admitida: 500	Sí	El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para TwelveLabs Marengo Embed 3.0. Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele las solicitudes de inferencia por minuto para Voxtral Mini 1.0	Cada región admitida: 10 000	No	El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Voxtral Mini 1.0. Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele las solicitudes de inferencia por minuto para Voxtral Small 1.0	Cada región admitida: 10 000	No	El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Voxtral Small 1.0. Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele las solicitudes de inferencia por minuto para Writer Palmyra Vision 7B	Cada región admitida: 10 000	No	El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Writer Palmyra Vision 7B. Esta cuota representa el número total de solicitudes enviadas a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele las solicitudes de inferencia por minuto para GLM 5 Z.ai	Cada región admitida: 10 000	No	El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Z.ai GLM 5. Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele las solicitudes de inferencia por minuto para Z.ai GLM-4.7	Cada región admitida: 10 000	No	El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para. Z.ai GLM-4.7 Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
On-demand modele las solicitudes de inferencia por minuto para Flash Z.ai GLM-4.7	Cada región admitida: 10 000	No	El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Z.ai GLM-4.7 Flash. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
On-demand modele los símbolos de inferencia por minuto para AI21 Labs Jamba 1.5 Large	Cada región admitida: 300 000	No	El número máximo de fichas que puede enviar para la inferencia de modelos en un minuto para el Jamba 1.5 Large de AI21 Labs. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse y. InvokeModel
On-demand modele los tokens de inferencia por minuto para AI21 Labs Jamba 1.5 Mini	Cada región admitida: 300 000	No	El número máximo de fichas que puede enviar para la inferencia de modelos en un minuto para el Jamba 1.5 Mini de AI21 Labs. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse y. InvokeModel
On-demand fichas de inferencia de modelos por minuto para Amazon Nova Lite	us-east-1: 4 000 000 eu-west-2: 4 000 000 Cada una de las demás regiones compatibles: 200 000	No	La cantidad máxima de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para Amazon Nova Lite. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y InvokeModelWithResponseStream.
On-demand fichas de inferencia de modelos por minuto para Amazon Nova Micro	us-east-1: 4 000 000 eu-west-2: 4 000 000 Cada una de las demás regiones compatibles: 200 000	No	La cantidad máxima de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para Amazon Nova Micro. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y InvokeModelWithResponseStream.
On-demand fichas de inferencia de modelos por minuto para Amazon Nova Pro	Cada región admitida: 1 000 000	No	La cantidad máxima de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para Amazon Nova Pro. La cuota considera la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
On-demand fichas de inferencia de modelos por minuto para Amazon Titan Image Generator G1 V2	Cada región admitida: 2000	No	El número máximo de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para Amazon Titan Image Generator G1 V2. La cuota considera la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, ConverseStream y. InvokeModel InvokeModelWithResponseStream
On-demand modele los tokens de inferencia por minuto para Amazon Titan Multimodal Embeddings G1	Cada región admitida: 300 000	No	El número máximo de fichas que puede proporcionar InvokeModel en un minuto para Amazon Titan Multimodal Embeddings G1.
On-demand modele los tokens de inferencia por minuto para Amazon Titan Text Embeddings	Cada región admitida: 300 000	No	El número máximo de fichas que puedes proporcionar InvokeModel en un minuto para Amazon Titan Text Embeddings.
On-demand modele los tokens de inferencia por minuto para Amazon Titan Text Embeddings V2	Cada región admitida: 300 000	No	El número máximo de fichas que puede proporcionar InvokeModel en un minuto para Amazon Titan Text Embeddings V2.
On-demand modelar fichas de inferencia por minuto para Amazon Titan Text Express	Cada región admitida: 300 000	No	La cantidad máxima de tokens bajo demanda que puede enviar para la inferencia del modelo en un minuto. La cuota considera la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse InvokeModel y InvokeModelWithResponseStream a Amazon Titan Text Express. ConverseStream
On-demand token de inferencia de modelos por minuto para Amazon Titan Text Premier	Cada región admitida: 300 000	No	La cantidad máxima de tokens bajo demanda que puede enviar para la inferencia del modelo en un minuto. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse InvokeModel y InvokeModelWithResponseStream a Amazon Titan Text Premier. ConverseStream
On-demand modela las fichas de inferencia por minuto para Anthropic Claude 3 Haiku	us-east-1: 2 000 000 us-west-2: 2 000 000 ap-northeast-1:200.000 ap-southeast-1:200.000 Cada una de las demás regiones compatibles: 300 000	No	La cantidad máxima de tokens bajo demanda que puede enviar para la inferencia del modelo en un minuto. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse InvokeModel y ConverseStream InvokeModelWithResponseStream , en el caso de Anthropic Claude 3 Haiku.
On-demand modela las fichas de inferencia por minuto para Anthropic Claude 3 Opus	Cada región admitida: 400 000	No	El número máximo de tokens bajo demanda que puedes enviar para la inferencia de modelos en un minuto en el caso de Anthropic Claude 3 Opus. La cuota considera la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele los símbolos de inferencia por minuto para Anthropic Claude 3 Sonnet	us-east-1: 1 000 000 us-west-2: 1 000 000 Cada una de las demás regiones compatibles: 200 000	No	La cantidad máxima de tokens bajo demanda que puede enviar para la inferencia del modelo en un minuto. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse InvokeModel y ConverseStream InvokeModelWithResponseStream , en el caso de Anthropic Claude 3 Sonnet.
On-demand modela las fichas de inferencia por minuto para Anthropic Claude 3.5 Haiku	us-west-1:300,000 Cada una de las demás regiones compatibles: 2 000 000	No	El número máximo de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para Anthropic Claude 3.5 Haiku. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, ConverseStream y. InvokeModel InvokeModelWithResponseStream
On-demand modele los símbolos de inferencia por minuto para Anthropic Claude 3.5 Sonnet	us-west-2: 2 000 000 ap-northeast-1:200.000 ap-southeast-1:200.000 eu-central-1:200 000 eu-west-1:200 000 eu-west-3:200 000 Cada una de las demás regiones apoyadas: 400 000	No	El número máximo de fichas que puede enviar para la inferencia del modelo Anthropic Claude 3.5 Sonnet en un minuto. La cuota considera la suma combinada de Converse ConverseStream, InvokeModel y InvokeModelWithResponseStream.
On-demand modele los símbolos de inferencia por minuto para Anthropic Claude 3.5 Sonnet V2	us-west-2: 2 000 000 Cada una de las demás regiones compatibles: 400 000	No	El número máximo de tokens que puede enviar para la inferencia del modelo Anthropic Claude 3.5 Sonnet V2 en un minuto. La cuota considera la suma combinada de Converse ConverseStream, InvokeModel y InvokeModelWithResponseStream.
On-demand modele las fichas de inferencia por minuto para Anthropic Claude 3.7 Sonnet V1	Cada región admitida: 500 000	No	El número máximo de tokens bajo demanda que puede enviar para la inferencia del modelo en un minuto para el Sonnet V1 de Anthropic Claude 3.7. La cuota considera la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele las fichas de inferencia por minuto para Anthropic Claude Opus 4.6 V1	Cada región admitida: 1 500 000	No	El número máximo de fichas bajo demanda que puedes enviar para la inferencia de modelos en un minuto para Anthropic Claude Opus 4.6 V1. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele los símbolos de inferencia por minuto para Anthropic Claude Sonnet 4.6	Cada región admitida: 3 000 000	No	El número máximo de fichas bajo demanda que puede enviar para la inferencia de modelos en un minuto para Anthropic Claude Sonnet 4.6. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele los símbolos de inferencia por minuto para Cohere Command R	Cada región admitida: 300 000	No	La cantidad máxima de tokens bajo demanda que puede enviar para la inferencia del modelo en un minuto. La cuota considera la suma combinada de los tokens de entrada y salida en todas las solicitudes a Converse InvokeModel y InvokeModelWithResponseStream para Cohere Command R 128k. ConverseStream
On-demand token de inferencia de modelos por minuto para Cohere Command R Plus	Cada región admitida: 300 000	No	La cantidad máxima de tokens bajo demanda que puede enviar para la inferencia del modelo en un minuto. La cuota considera la suma combinada de los tokens de entrada y salida en todas las solicitudes a Converse InvokeModel y InvokeModelWithResponseStream para Cohere Command R Plus 128k. ConverseStream
On-demand modele los símbolos de inferencia por minuto para Cohere Embed English	Cada región admitida: 300 000	No	El número máximo de fichas que puede proporcionar InvokeModel en un minuto para Cohere Embed English.
On-demand modele los símbolos de inferencia por minuto para Cohere Embed Multilingual	Cada región admitida: 300 000	No	El número máximo de fichas que puede proporcionar InvokeModel en un minuto para Cohere Embed Multilingual.
On-demand modele los tokens de inferencia por minuto para Cohere Embed V4	Cada región admitida: 150 000	No	La cantidad máxima de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para Cohere Embed V4. La cuota considera la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, ConverseStream y. InvokeModel InvokeModelWithResponseStream
On-demand modele los símbolos de inferencia por minuto para DeepSeek las versiones 3 y V1	Cada región admitida: 100 000 000	No	El número máximo de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para DeepSeek la V3 V1. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, ConverseStream y. InvokeModel InvokeModelWithResponseStream
On-demand modele los símbolos de inferencia por minuto para DeepSeek V3.2	Cada región admitida: 100 000 000	No	El número máximo de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para. DeepSeek V3.2 La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
On-demand modele los tokens de inferencia por minuto para GPT OSS Safeguard 120B	Cada región admitida: 100 000 000	No	El número máximo de tokens bajo demanda que puedes enviar para la inferencia de modelos en un minuto para el GPT OSS Safeguard 120B. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele los tokens de inferencia por minuto para GPT OSS Safeguard 20B	Cada región admitida: 100 000 000	No	El número máximo de tokens bajo demanda que puedes enviar para la inferencia del modelo en un minuto para GPT OSS Safeguard 20B. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele los símbolos de inferencia por minuto para Gemma 3 12B	Cada región admitida: 100 000 000	No	El número máximo de fichas bajo demanda que puede enviar para la inferencia del modelo en un minuto para Gemma 3 12B. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele los símbolos de inferencia por minuto para Gemma 3 27B	Cada región admitida: 100 000 000	No	El número máximo de fichas bajo demanda que puede enviar para la inferencia del modelo en un minuto para Gemma 3 27B. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele los símbolos de inferencia por minuto para Gemma 3 4B	Cada región admitida: 100 000 000	No	El número máximo de fichas bajo demanda que puede enviar para la inferencia del modelo en un minuto para Gemma 3 4B. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modela las fichas de inferencia por minuto para Kimi K2 Thinking	Cada región admitida: 100 000 000	No	El número máximo de fichas bajo demanda que puede enviar para la inferencia de modelos en un minuto para Kimi K2 Thinking. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele las fichas de inferencia por minuto para Magistral Small 1.2	Cada región admitida: 100 000 000	No	El número máximo de fichas bajo demanda que puede enviar para la inferencia de modelos en un minuto en el caso de Magistral Small 1.2. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, ConverseStream y. InvokeModel InvokeModelWithResponseStream
On-demand modele los símbolos de inferencia por minuto para Meta Llama 3 70B Instruct	Cada región admitida: 300 000	No	El número máximo de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para Meta Llama 3 70B Instruct. La cuota considera la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele los tokens de inferencia por minuto para Meta Llama 3 8B Instruct	Cada región admitida: 300 000	No	El número máximo de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para Meta Llama 3 8B Instruct. La cuota considera la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele los símbolos de inferencia por minuto para Meta Llama 3.1 405B Instruct	Cada región admitida: 400 000	No	El número máximo de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para Meta Llama 3.1 405B Instruct. La cuota considera la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele los símbolos de inferencia por minuto para Meta Llama 3.1 70B Instruct	Cada región admitida: 300 000	No	El número máximo de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para Meta Llama 3.1 70B Instruct. La cuota considera la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele los símbolos de inferencia por minuto para Meta Llama 3.1 8B Instruct	Cada región admitida: 300 000	No	El número máximo de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para Meta Llama 3.1 8B Instruct. La cuota considera la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele los símbolos de inferencia por minuto para Meta Llama 3.2 11B Instruct	Cada región admitida: 300 000	No	El número máximo de fichas que puedes enviar para la inferencia de modelos en un minuto para Meta Llama 3.2 11B Instruct. La cuota considera la suma combinada de los tokens de InvokeModel, InvokeModelWithResponseStream, Converse y. ConverseStream
On-demand modele los símbolos de inferencia por minuto para Meta Llama 3.2 1B Instruct	Cada región admitida: 300 000	No	El número máximo de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para Meta Llama 3.2 1B Instruct. La cuota considera la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, ConverseStream y. InvokeModel InvokeModelWithResponseStream
On-demand modele los símbolos de inferencia por minuto para Meta Llama 3.2 3B Instruct	Cada región admitida: 300 000	No	El número máximo de fichas que puedes enviar para la inferencia de modelos en un minuto para Meta Llama 3.2 3B Instruct. La cuota considera la suma combinada de los tokens de InvokeModel, InvokeModelWithResponseStream, Converse y. ConverseStream
On-demand modele los símbolos de inferencia por minuto para Meta Llama 3.2 90B Instruct	Cada región admitida: 300 000	No	El número máximo de fichas que puedes enviar para la inferencia de modelos en un minuto para Meta Llama 3.2 90B Instruct. La cuota considera la suma combinada de los tokens de InvokeModel, InvokeModelWithResponseStream, Converse y. ConverseStream
On-demand modele los símbolos de inferencia por minuto para Meta Llama 3.3 70B Instruct	Cada región admitida: 300 000	No	El número máximo de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para Meta Llama 3.3 70B Instruct. La cuota considera la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele los símbolos de inferencia por minuto para MiniMax M2.5	Cada región admitida: 100 000 000	No	El número máximo de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para. MiniMax M2.5 La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
On-demand modele los tokens de inferencia por minuto para Minimax M2	Cada región admitida: 100 000 000	No	El número máximo de tokens bajo demanda que puede enviar para la inferencia del modelo en un minuto para Minimax M2. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, ConverseStream y. InvokeModel InvokeModelWithResponseStream
On-demand modele los tokens de inferencia por minuto para Minimax M2.1	Cada región admitida: 100 000 000	No	El número máximo de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para Minimax. M2.1 La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, ConverseStream y. InvokeModel InvokeModelWithResponseStream
On-demand modele los símbolos de inferencia por minuto para Ministral 14B 3.0	Cada región admitida: 100 000 000	No	El número máximo de fichas bajo demanda que puede enviar para la inferencia del modelo en un minuto para el Ministral 14B 3.0. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele los símbolos de inferencia por minuto para Ministral 3B 3.0	Cada región admitida: 100 000 000	No	El número máximo de fichas bajo demanda que puede enviar para la inferencia del modelo en un minuto para el Ministral 3B 3.0. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, ConverseStream y. InvokeModel InvokeModelWithResponseStream
On-demand modele los símbolos de inferencia por minuto para Ministral 8B 3.0	Cada región admitida: 100 000 000	No	El número máximo de fichas bajo demanda que puede enviar para la inferencia del modelo en un minuto para el Ministral 8B 3.0. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele los tokens de inferencia por minuto para Mistral AI Mistral 7B Instruct	Cada región admitida: 300 000	No	La cantidad máxima de tokens bajo demanda que puede enviar para la inferencia del modelo en un minuto. La cuota considera la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse y, en el caso del Mistral AI Mistral 7B ConverseStream Instruct InvokeModel . InvokeModelWithResponseStream
On-demand modela las fichas de inferencia por minuto para Mistral AI Mistral Large	Cada región admitida: 300 000	No	La cantidad máxima de tokens bajo demanda que puede enviar para la inferencia del modelo en un minuto. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse InvokeModel y InvokeModelWithResponseStream , en el caso de Mistral AI Mistral ConverseStream Large.
On-demand modele los símbolos de inferencia por minuto para Mistral AI Mistral Small	Cada región admitida: 300 000	No	La cantidad máxima de tokens bajo demanda que puede enviar para la inferencia del modelo en un minuto. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse InvokeModel y InvokeModelWithResponseStream , en el caso de Mistral AI Mistral ConverseStream Small.
On-demand modele los símbolos de inferencia por minuto para Mistral AI Mixtral 8X7BB Instruct	Cada región admitida: 300 000	No	La cantidad máxima de tokens bajo demanda que puede enviar para la inferencia del modelo en un minuto. La cuota considera la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse y, en el caso de Mistral AI Mixtral 8X7B Instruct ConverseStream. InvokeModel InvokeModelWithResponseStream
On-demand modele los símbolos de inferencia por minuto para Mistral Devstral 2 123b	Cada región admitida: 100 000 000	No	El número máximo de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para Mistral Devstral 2 123b. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele los símbolos de inferencia por minuto para Mistral Large 2407	Cada región admitida: 300 000	No	El número máximo de fichas que puede enviar para la inferencia del modelo en un minuto para el Mistral Large 2407. La cuota considera la suma combinada de los tokens de InvokeModel, Converse y InvokeModelWithResponseStream ConverseStream
On-demand modele los símbolos de inferencia por minuto para Mistral Large 3	Cada región admitida: 100 000 000	No	El número máximo de fichas bajo demanda que puede enviar para la inferencia de modelos en un minuto en el caso de Mistral Large 3. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modela las fichas de inferencia por minuto para Moonshot AI Kimi K2.5	Cada región admitida: 100 000 000	No	El número máximo de fichas bajo demanda que puedes enviar para la inferencia de modelos en un minuto para Moonshot AI Kimi. K2.5 La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele los símbolos de inferencia por minuto para NVIDIA Nemotron 3 Super 120B A12B	Cada región admitida: 100 000 000	No	El número máximo de tokens bajo demanda que puedes enviar para la inferencia de modelos en un minuto para la NVIDIA Nemotron 3 Super 120B A12B. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele los tokens de inferencia por minuto para NVIDIA Nemotron Nano 2	Cada región admitida: 100 000 000	No	La cantidad máxima de tokens bajo demanda que puedes enviar para la inferencia de modelos en un minuto para NVIDIA Nemotron Nano 2. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele los tokens de inferencia por minuto para NVIDIA Nemotron Nano 2 VL	Cada región admitida: 100 000 000	No	El número máximo de tokens bajo demanda que puedes enviar para la inferencia de modelos en un minuto para NVIDIA Nemotron Nano 2 VL. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele los símbolos de inferencia por minuto para el Nemotron Nano 3 30B	Cada región admitida: 100 000 000	No	El número máximo de fichas bajo demanda que puedes enviar para la inferencia del modelo en un minuto para el Nemotron Nano 3 30B. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand token de inferencia de modelos por minuto para OpenAI GPT OSS 120B	Cada región admitida: 100 000 000	No	El número máximo de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para OpenAI GPT OSS 120B. La cuota considera la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand token de inferencia de modelos por minuto para OpenAI GPT OSS 20B	Cada región admitida: 100 000 000	No	El número máximo de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para OpenAI GPT OSS 20B. La cuota considera la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele los símbolos de inferencia por minuto para Qwen3 235B a22b 2507 V1	Cada región admitida: 100 000 000	No	El número máximo de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para Qwen3 235B a22b 2507 V1. La cuota considera la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele los símbolos de inferencia por minuto para Qwen3 32B V1	Cada región admitida: 100 000 000	No	El número máximo de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para Qwen3 32B V1. La cuota considera la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele los símbolos de inferencia por minuto para Qwen3 Coder 30B a3b V1	Cada región admitida: 100 000 000	No	El número máximo de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para Qwen3 Coder 30B a3b V1. La cuota considera la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele los símbolos de inferencia por minuto para Qwen3 Coder 480B a35b V1	Cada región admitida: 100 000 000	No	El número máximo de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para Qwen3 Coder 480B a35b V1. La cuota considera la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele los tokens de inferencia por minuto para Qwen3 Coder Next	Cada región admitida: 100 000 000	No	El número máximo de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para Qwen3 Coder Next. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele los tokens de inferencia por minuto para Qwen3 Next 80B A3B	Cada región admitida: 100 000 000	No	El número máximo de tokens bajo demanda que puede enviar para la inferencia del modelo en un minuto para el Qwen3 Next 80B A3B. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele los símbolos de inferencia por minuto para Qwen3 VL 235B A22B	Cada región admitida: 100 000 000	No	El número máximo de tokens bajo demanda que puede enviar para la inferencia del modelo en un minuto para el Qwen3 VL 235B A22B. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele los tokens de inferencia por minuto para Voxtral Mini 1.0	Cada región admitida: 100 000 000	No	La cantidad máxima de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para Voxtral Mini 1.0. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele los tokens de inferencia por minuto para Voxtral Small 1.0	Cada región admitida: 100 000 000	No	El número máximo de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para Voxtral Small 1.0. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele los símbolos de inferencia por minuto para Writer Palmyra Vision 7B	Cada región admitida: 100 000 000	No	El número máximo de fichas bajo demanda que puede enviar para la inferencia de modelos en un minuto para Writer Palmyra Vision 7B. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
On-demand modele los tokens de inferencia por minuto para GLM 5 Z.ai	Cada región admitida: 100 000 000	No	La cantidad máxima de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para Z.ai GLM 5. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, ConverseStream y. InvokeModel InvokeModelWithResponseStream
On-demand modele los símbolos de inferencia por minuto para Z.ai GLM-4.7	Cada región admitida: 100 000 000	No	El número máximo de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para. Z.ai GLM-4.7 La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
On-demand modele los tokens de inferencia por minuto para Flash Z.ai GLM-4.7	Cada región admitida: 100 000 000	No	El número máximo de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para Z.ai GLM-4.7 Flash. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Funciones de parámetros de base de datos	Cada región admitida: 5	Sí	Número máximo de parámetros que puede haber en una función de grupo de acciones.
PrepareAgent solicitudes por segundo	Cada región admitida: 2	No	El número máximo de solicitudes de PrepareAgent API por segundo.
Trabajo de inferencia de registros por lote para Amazon Nova 2 Multimodal Embeddings V1	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Amazon Nova 2 Multimodal Embeddings V1.
Registros por trabajo de inferencia en lotes para Amazon Nova Premier	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada de un trabajo de inferencia en lotes para Amazon Nova Premier.
Registros por trabajo de inferencia en lotes para Claude 3 Haiku	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Claude 3 Haiku.
Registros por trabajo de inferencia en lotes para Claude 3 Opus	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Claude 3 Opus.
Registros por trabajo de inferencia en lotes para Claude 3 Sonnet	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada de un trabajo de inferencia en lotes para Claude 3 Sonnet.
Registros por trabajo de inferencia en lotes para Claude 3.5 Haiku	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Claude 3.5 Haiku.
Registros por trabajo de inferencia en lotes para Claude 3.5 Sonnet	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada de un trabajo de inferencia en lotes para el Sonnet Claude 3.5.
Registros por trabajo de inferencia en lotes para Claude 3.5 Sonnet v2	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada de un trabajo de inferencia en lotes para Claude 3.5 Sonnet v2.
Registros por trabajo de inferencia en lotes para Claude 3.7 Sonnet	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada de un trabajo de inferencia en lotes para Claude 3.7 Sonnet.
Trabajo de inferencia de registros por lote para Claude Haiku 4.5	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Claude Haiku 4.5.
Trabajos de inferencia de registros por lote para Claude Opus 4.5	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Claude Opus 4.5.
Trabajos de inferencia de registros por lote para Claude Opus 4.6	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Claude Opus 4.6.
Registros por trabajo de inferencia en lotes para Claude Sonnet 4	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Claude Sonnet 4.
Registros por trabajo de inferencia por lote para Claude Sonnet 4.5	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Claude Sonnet 4.5.
Registros por trabajo de inferencia por lote para Claude Sonnet 4.6	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Claude Sonnet 4.6.
Registros por trabajo de inferencia por lotes para DeepSeek V3.2	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada de un trabajo de inferencia por lotes para. DeepSeek V3.2
Registros por trabajo de inferencia por lote para la versión 3 DeepSeek	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada de un trabajo de inferencia por lotes para la versión 3. DeepSeek
Registros por trabajo de inferencia por lote para Devstral 2 123B	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Devstral 2 123B.
Registros por trabajo de inferencia por lote para GLM 4.7	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para GLM 4.7.
Registra por lote el trabajo de inferencia para GLM 4.7 Flash	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para GLM 4.7 Flash.
Registros por trabajo de inferencia por lote para GLM 5	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para GLM 5.
Registros por trabajo de inferencia por lote para Gemma 3 12B	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada de un trabajo de inferencia por lotes para Gemma 3 12B.
Registros por trabajo de inferencia por lote para Gemma 3 27B	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Gemma 3 27B.
Registros por trabajo de inferencia por lote para Gemma 3 4B	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada de un trabajo de inferencia por lotes para Gemma 3 4B.
Registros por lote: trabajo de inferencia para Kimi K2 Thinking	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Kimi K2 Thinking.
Registros por trabajo de inferencia por lote para Kimi K2.5	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada de un trabajo de inferencia por lotes para Kimi. K2.5
Registros por trabajo de inferencia en lotes para Llama 3.1 405B Instruct	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Llama 3.1 405B Instruct.
Registros por trabajo de inferencia en lotes para Llama 3.1 70B Instruct	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Llama 3.1 70B Instruct.
Registros por trabajo de inferencia en lotes para Llama 3.1 8B Instruct	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Llama 3.1 8B Instruct.
Registros por trabajo de inferencia en lotes para Llama 3.2 11B Instruct	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Llama 3.2 11B Instruct.
Registros por trabajo de inferencia en lotes para Llama 3.2 1B Instruct	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada de un trabajo de inferencia en lotes Llama 3.2 1B Instruct.
Registros por trabajo de inferencia en lotes para Llama 3.2 3B Instruct	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Llama 3.2 3B Instruct.
Registros por trabajo de inferencia en lotes para Llama 3.2 90B Instruct	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Llama 3.2 90B Instruct.
Registros por trabajo de inferencia en lotes para Llama 3.3 70B Instruct	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Llama 3.3 70B Instruct.
Registros por trabajo de inferencia en lotes para Llama 4 Maverick	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Llama 4 Maverick.
Registros por trabajo de inferencia en lotes para Llama 4 Scout	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Llama 4 Scout.
Trabajo de inferencia de registros por lote para Magistral Small 2509	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Magistral Small 2509.
Registros por trabajo de inferencia por lote para M2 MiniMax	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada de un trabajo de inferencia por lotes para MiniMax M2.
Registra por trabajo de inferencia por lotes para MiniMax M2.1	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada de un trabajo de inferencia por lotes para. MiniMax M2.1
Registros por trabajo de inferencia por lotes para MiniMax M2.5	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada de un trabajo de inferencia por lotes para. MiniMax M2.5
Trabajo de inferencia de registros por lote para Ministral 3 14B	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Ministral 3 14B.
Trabajo de inferencia de registros por lote para Ministral 3 8B	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Ministral 3 8B.
Trabajos de inferencia de registros por lote para Ministral 3B	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Ministral 3B.
Registros por trabajo de inferencia en lotes para Mistral Large 2 (24.07)	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Mistral Large 2 (24.07).
Trabajos de inferencia de registros por lote para Mistral Large 3	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Mistral Large 3.
Registros por trabajo de inferencia en lotes para Mistral Small	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada de un trabajo de inferencia en lotes para Mistral Small.
Registra el trabajo de inferencia por lote para NVIDIA Nemotron 3 Super 120B A12B	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para NVIDIA Nemotron 3 Super 120B A12B.
Registra el trabajo de inferencia por lote para NVIDIA Nemotron Nano 12B	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para NVIDIA Nemotron Nano 12B.
Registra el trabajo de inferencia por lote para NVIDIA Nemotron Nano 3 30B	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para NVIDIA Nemotron Nano 3 30B.
Registra el trabajo de inferencia por lote para NVIDIA Nemotron Nano 9B	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para NVIDIA Nemotron Nano 9B.
Registros por trabajo de inferencia por lote para Nova 2 Lite	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Nova 2 Lite.
Registros por trabajo de inferencia en lotes para Nova Lite V1	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Nova Lite V1.
Registros por trabajo de inferencia en lotes para Nova Micro V1	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Nova Micro V1.
Registros por trabajo de inferencia en lotes para Nova Pro V1	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Nova Pro V1.
Registros por trabajo de inferencia en lotes para OpenAI GPT OSS 120b	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para OpenAI GPT OSS 120b.
Registros por trabajo de inferencia en lotes para OpenAI GPT OSS 20b	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para OpenAI GPT OSS 20b.
Trabajo de inferencia de registros por lote para OpenAI GPT OSS Safeguard 120b	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para OpenAI GPT OSS Safeguard 120b.
Trabajo de inferencia de registros por lote para OpenAI GPT OSS Safeguard 2.0b	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para OpenAI GPT OSS Safeguard 20b.
Registros por trabajo de inferencia en lotes para Qwen3 235B	Cada región admitida: 100 000	Sí	Número máximo de registros por archivo de entrada en un trabajo de inferencia en lotes para Qwen3 235B.
Registros por trabajo de inferencia en lotes para Qwen3 32B	Cada región admitida: 100 000	Sí	La cantidad máxima de registros entre todos los archivos de entrada en un trabajo de inferencia por lotes para Qwen3 32B.
Registros por trabajo de inferencia en lotes para Qwen3 Coder 30B	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Qwen3 Coder 30B.
Registros por trabajo de inferencia en lotes para Qwen3 Coder 480B	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Qwen3 Coder 480B.
Registros por trabajo de inferencia por lote para Qwen3 Coder Next	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Qwen3 Coder Next.
Registros por trabajo de inferencia por lote para Qwen3 Next 80B	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada de un trabajo de inferencia por lotes para Qwen3 Next 80B.
Registros por trabajo de inferencia por lote para Qwen3 VL 235B	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Qwen3 VL 235B.
Registros por trabajo de inferencia en lotes para Titan Multimodal Embeddings G1	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Titan Multimodal Embeddings G1.
Registros por trabajo de inferencia en lotes para Titan Text Embeddings V2	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Titan Text Embeddings V2.
Registra por lote el trabajo de inferencia para Voxtral Mini 3B 2507	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Voxtral Mini 3B 2507.
Registra por lote el trabajo de inferencia para Voxtral Small 24B 2507	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Voxtral Small 24B 2507.
Registra el trabajo de inferencia por lote para Writer Palmyra Vision 7B	Cada región admitida: 100 000	Sí	El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Writer Palmyra Vision 7B.
Registros por archivo de entrada por trabajo de inferencia por lote para Amazon Nova 2 Multimodal Embeddings V1	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para Amazon Nova 2 Multimodal Embeddings V1.
Registros por archivo de entrada por trabajo de inferencia en lotes para Amazon Nova Premier	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Amazon Nova Premier.
Registros por archivo de entrada y por trabajo de inferencia en lotes para Claude 3 Haiku	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Claude 3 Haiku.
Registros por archivo de entrada y por trabajo de inferencia en lotes para Claude 3 Opus	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Claude 3 Opus.
Registros por archivo de entrada y por trabajo de inferencia en lotes para Claude 3 Sonnet	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Claude 3 Sonnet.
Registros por archivo de entrada y por trabajo de inferencia en lotes para Claude 3.5 Haiku	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Claude 3.5 Haiku.
Registros por archivo de entrada y por trabajo de inferencia en lotes para Claude 3.5 Sonnet	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para el Sonnet Claude 3.5.
Registros por archivo de entrada por trabajo de inferencia en lotes para Claude 3.5 Sonnet v2	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Claude 3.5 Sonnet v2.
Registros por archivo de entrada y por trabajo de inferencia en lotes para Claude 3.7 Sonnet	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Claude 3.7 Sonnet.
Registros por archivo de entrada por trabajo de inferencia por lotes para Claude Haiku 4.5	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para Claude Haiku 4.5.
Registros por archivo de entrada por trabajo de inferencia por lotes para Claude Opus 4.5	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para Claude Opus 4.5.
Registros por archivo de entrada por trabajo de inferencia por lotes para Claude Opus 4.6	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para Claude Opus 4.6.
Registros por archivo de entrada por trabajo de inferencia en lotes para Claude Sonnet 4	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Claude Sonnet 4.
Registros por archivo de entrada por trabajo de inferencia por lotes para Claude Sonnet 4.5	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para Claude Sonnet 4.5.
Registra por archivo de entrada por trabajo de inferencia por lotes para Claude Sonnet 4.6	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para Claude Sonnet 4.6.
Registra por archivo de entrada y por trabajo de inferencia por lotes para DeepSeek V3.2	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para. DeepSeek V3.2
Registra por archivo de entrada y por trabajo de inferencia por lotes para la versión 3 DeepSeek	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para la versión 3. DeepSeek
Registros por archivo de entrada por trabajo de inferencia por lotes para Devstral 2 123B	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para Devstral 2 123B.
Registra por archivo de entrada por trabajo de inferencia por lotes para GLM 4.7	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para GLM 4.7.
Registra por archivo de entrada por trabajo de inferencia por lotes para GLM 4.7 Flash	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para GLM 4.7 Flash.
Registra por archivo de entrada por trabajo de inferencia por lotes para GLM 5	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para GLM 5.
Registra por archivo de entrada por trabajo de inferencia por lotes para Gemma 3 12B	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para Gemma 3 12B.
Registros por archivo de entrada por trabajo de inferencia por lotes para Gemma 3 27B	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para Gemma 3 27B.
Registros por archivo de entrada por trabajo de inferencia por lotes para Gemma 3 4B	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para Gemma 3 4B.
Registra por archivo de entrada y por trabajo de inferencia por lotes para Kimi K2 Thinking	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para Kimi K2 Thinking.
Registra por archivo de entrada por trabajo de inferencia por lotes para Kimi K2.5	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para Kimi. K2.5
Registros por archivo de entrada por trabajo de inferencia en lotes para Llama 3.1 405B Instruct	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Llama 3.1 405B Instruct.
Registros por archivo de entrada por trabajo de inferencia en lotes para Llama 3.1 70B Instruct	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Llama 3.1 70B Instruct.
Registros por archivo de entrada por trabajo de inferencia en lotes para Llama 3.1 8B Instruct	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Llama 3.1 8B Instruct.
Registros por archivo de entrada por trabajo de inferencia en lotes para Llama 3.2 11B Instruct	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Llama 3.2 11B Instruct.
Registros por archivo de entrada por trabajo de inferencia en lotes para Llama 3.2 1B Instruct	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes Llama 3.2 1B Instruct.
Registros por archivo de entrada por trabajo de inferencia en lotes para Llama 3.2 3B Instruct	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Llama 3.2 3B Instruct.
Registros por archivo de entrada por trabajo de inferencia en lotes para Llama 3.2 90B Instruct	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Llama 3.2 90B Instruct.
Registros por archivo de entrada y por trabajo de inferencia en lotes para Llama 3.3 70B Instruct	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Llama 3.3 70B Instruct.
Registros por archivo de entrada y por trabajo de inferencia en lotes para Llama 4 Maverick	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Llama 4 Maverick.
Registros por archivo de entrada y por trabajo de inferencia en lotes para Llama 4 Scout	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Llama 4 Scout.
Registros por archivo de entrada y por trabajo de inferencia por lotes para Magistral Small 2509	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para Magistral Small 2509.
Registros por archivo de entrada por trabajo de inferencia por lotes para M2 MiniMax	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para MiniMax M2.
Registra por archivo de entrada y por trabajo de inferencia por lotes para MiniMax M2.1	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para. MiniMax M2.1
Registra por archivo de entrada y por trabajo de inferencia por lotes para MiniMax M2.5	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para. MiniMax M2.5
Registros por archivo de entrada y por trabajo de inferencia por lotes para Ministral 3 14B	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para Ministral 3 14B.
Registros por archivo de entrada por trabajo de inferencia por lotes para Ministral 3 8B	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para Ministral 3 8B.
Registros por archivo de entrada por trabajo de inferencia por lotes para Ministral 3B	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para Ministral 3B.
Registros por archivo de entrada por trabajo de inferencia en lotes para Mistral Large 2 (24.07)	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Mistral Large 2 (24.07).
Registros por archivo de entrada por trabajo de inferencia por lotes para Mistral Large 3	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para Mistral Large 3.
Registros por archivo de entrada y por trabajo de inferencia en lotes para Mistral Small	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Mistral Small.
Registra por archivo de entrada y por trabajo de inferencia por lotes para NVIDIA Nemotron 3 Super 120B A12B	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para NVIDIA Nemotron 3 Super 120B A12B.
Registra por archivo de entrada por trabajo de inferencia por lotes para NVIDIA Nemotron Nano 12B	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para NVIDIA Nemotron Nano 12B.
Registra por archivo de entrada y por trabajo de inferencia por lotes para NVIDIA Nemotron Nano 3 30B	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para NVIDIA Nemotron Nano 3 30B.
Registra por archivo de entrada y por trabajo de inferencia por lotes para NVIDIA Nemotron Nano 9B	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para NVIDIA Nemotron Nano 9B.
Registra por archivo de entrada y por trabajo de inferencia por lotes para Nova 2 Lite	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para Nova 2 Lite.
Registros por archivo de entrada por trabajo de inferencia en lotes para Nova Lite V1	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Nova Lite V1.
Registros por archivo de entrada por trabajo de inferencia en lotes para Nova Micro V1	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Nova Micro V1.
Registros por archivo de entrada por trabajo de inferencia en lotes para Nova Pro V1	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Nova Pro V1.
Registros por archivo de entrada por trabajo de inferencia en lotes para OpenAI GPT OSS 120b	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para OpenAI GPT OSS 120b.
Registros por archivo de entrada por trabajo de inferencia en lotes para OpenAI GPT OSS 20b	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para OpenAI GPT OSS 20b.
Registros por archivo de entrada por trabajo de inferencia por lotes para OpenAI GPT OSS Safeguard 120b	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para OpenAI GPT OSS Safeguard 120b.
Registros por archivo de entrada por trabajo de inferencia por lotes para OpenAI GPT OSS Safeguard 2.0b	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para OpenAI GPT OSS Safeguard 20b.
Registros por archivo de entrada por trabajo de inferencia en lotes para Qwen3 235B	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Qwen3 235B.
Registros por archivo de entrada por trabajo de inferencia en lotes para Qwen3 32B	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Qwen3 32B.
Registros por archivo de entrada por trabajo de inferencia en lotes para Qwen3 Coder 30B	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Qwen3 Coder 30B.
Registros por archivo de entrada por trabajo de inferencia en lotes para Qwen3 Coder 480B	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Qwen3 Coder 480B.
Registra por archivo de entrada y por trabajo de inferencia por lotes para Qwen3 Coder Next	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para Qwen3 Coder Next.
Registra por archivo de entrada por trabajo de inferencia por lotes para Qwen3 Next 80B	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para Qwen3 Next 80B.
Registra por archivo de entrada por trabajo de inferencia por lotes para Qwen3 VL 235B	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para Qwen3 VL 235B.
Registros por archivo de entrada por trabajo de inferencia en lotes para Titan Multimodal Embeddings G1	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Titan Multimodal Embeddings G1.
Registros por archivo de entrada y por trabajo de inferencia en lotes para Titan Text Embeddings V2	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Titan Text Embeddings V2.
Registra por archivo de entrada y por trabajo de inferencia por lotes para Voxtral Mini 3B 2507	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para Voxtral Mini 3B 2507.
Registra por archivo de entrada y por trabajo de inferencia por lotes para Voxtral Small 24B 2507	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para Voxtral Small 24B 2507.
Registra por archivo de entrada y por trabajo de inferencia por lotes para Writer Palmyra Vision 7B	Cada región admitida: 100 000	Sí	El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para Writer Palmyra Vision 7B.
Suma de los trabajos de inferencia de lotes en curso y enviados utilizando un modelo base para Amazon Nova 2 Multimodal Embeddings V1	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia de lotes en curso y enviados que utilizan un modelo base para Amazon Nova 2 Multimodal Embeddings V1.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Amazon Nova Premier	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia en lotes en curso y enviados que utilizan un modelo base para Amazon Nova Premier.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Claude 3 Haiku	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Claude 3 Haiku.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Claude 3 Opus	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Claude 3 Opus.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Claude 3 Sonnet	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Claude 3 Sonnet.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Claude 3.5 Haiku	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Claude 3.5 Haiku.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Claude 3.5 Sonnet	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Claude 3.5 Sonnet.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Claude 3.5 Sonnet v2	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Claude 3.5 Sonnet v2.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Claude 3.7 Sonnet	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Claude 3.7 Sonnet.
Suma de los trabajos de inferencia de lotes en curso y enviados utilizando un modelo base para Claude Haiku 4.5	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Claude Haiku 4.5.
Suma de los trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Claude Opus 4.5	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Claude Opus 4.5.
Suma de los trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Claude Opus 4.6	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Claude Opus 4.6.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Claude Sonnet 4	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Claude Sonnet 4.
Suma de los trabajos de inferencia de lotes en curso y enviados utilizando un modelo base para Claude Sonnet 4.5.	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Claude Sonnet 4.5.
Suma de los trabajos de inferencia de lotes en curso y enviados utilizando un modelo base para Claude Sonnet 4.6	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Claude Sonnet 4.6.
Suma de los trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para DeepSeek V3.2	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia de lotes en curso y enviados utilizando un modelo base para. DeepSeek V3.2
Suma de los trabajos de inferencia de lotes en curso y enviados utilizando un modelo base para la versión 3 DeepSeek	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para la versión 3. DeepSeek
Suma de los trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Devstral 2 123B	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Devstral 2 123B.
Suma de los trabajos de inferencia de lotes en curso y enviados utilizando un modelo base para GLM 4.7	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia de lotes en curso y enviados utilizando un modelo base para GLM 4.7.
Suma de los trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para GLM 4.7 Flash	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para GLM 4.7 Flash.
Suma de los trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para GLM 5	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia de lotes en curso y enviados utilizando un modelo base para GLM 5.
Suma de los trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Gemma 3 12B	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Gemma 3 12B.
Suma de los trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Gemma 3 27B	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Gemma 3 27B.
Suma de los trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Gemma 3 4B	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Gemma 3 4B.
Suma de los trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Kimi K2 Thinking	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Kimi K2 Thinking.
Suma de los trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Kimi K2.5	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia de lotes en curso y enviados utilizando un modelo base para Kimi. K2.5
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Llama 3.1 405B Instruct	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Llama 3.1 405B Instruct.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Llama 3.1 70B Instruct	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Llama 3.1 70B Instruct.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Llama 3.1 8B Instruct	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Llama 3.1 8B Instruct.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Llama 3.2 11B Instruct	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Llama 3.2 11B Instruct.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Llama 3.2 1B Instruct	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Llama 3.2 1B Instruct.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Llama 3.2 3B Instruct	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Llama 3.2 3B Instruct.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Llama 3.2 90B Instruct	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Llama 3.2 90B Instruct.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Llama 3.3 70B Instruct	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Llama 3.3 70B Instruct.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Llama 4 Maverick	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Llama 4 Maverick.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Llama 4 Scout	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Llama 4 Scout.
Suma de los trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Magistral Small 2509	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia por lotes en curso y presentados utilizando un modelo base para Magistral Small 2509.
Suma de los trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para M2 MiniMax	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia de lotes en curso y enviados utilizando un modelo base para M2. MiniMax
Suma de los trabajos de inferencia de lotes en curso y enviados utilizando un modelo base para MiniMax M2.1	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia de lotes en curso y enviados utilizando un modelo base para. MiniMax M2.1
Suma de los trabajos de inferencia de lotes en curso y enviados utilizando un modelo base para MiniMax M2.5	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia de lotes en curso y enviados utilizando un modelo base para. MiniMax M2.5
Suma de los trabajos de inferencia de lotes en curso y enviados utilizando un modelo base para Ministral 3 14B	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia por lotes en curso y presentados utilizando un modelo base para Ministral 3 14B.
Suma de los trabajos de inferencia por lotes en curso y presentados utilizando un modelo base para Ministral 3 8B	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia por lotes en curso y presentados utilizando un modelo base para Ministral 3 8B.
Suma de los trabajos de inferencia de lotes en curso y presentados utilizando un modelo base para Ministral 3B	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia por lotes en curso y presentados utilizando un modelo base para el Ministral 3B.
La suma de trabajos de inferencia en lotes en curso y enviados con un modelo base para Mistral Large 2 (24.07)	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Mistral Large 2 (24.07).
Suma de los trabajos de inferencia de lotes en curso y enviados utilizando un modelo base para Mistral Large 3	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia de lotes en curso y enviados utilizando un modelo base para Mistral Large 3.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Mistral Small	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Mistral Small.
Suma de los trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para NVIDIA Nemotron 3 Super 120B A12B	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para NVIDIA Nemotron 3 Super 120B A12B.
Suma de los trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para NVIDIA Nemotron Nano 12B	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para NVIDIA Nemotron Nano 12B.
Suma de los trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para NVIDIA Nemotron Nano 3 30B	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para NVIDIA Nemotron Nano 3 30B.
Suma de los trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para NVIDIA Nemotron Nano 9B	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para NVIDIA Nemotron Nano 9B.
Suma de los trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Nova 2 Lite	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Nova 2 Lite.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Nova Lite V1	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Nova Lite V1.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Nova Micro V1	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Nova Micro V1.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Nova Pro V1	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Nova Pro V1.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para OpenAI GPT OSS 120b	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para OpenAI GPT OSS 120b.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para OpenAI GPT OSS 20b	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para OpenAI GPT OSS 20b.
Suma de los trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para OpenAI GPT OSS Safeguard 120b	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para OpenAI GPT OSS Safeguard 120b.
Suma de los trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para OpenAI GPT OSS Safeguard 2.0b	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para OpenAI GPT OSS Safeguard 20b.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Qwen3 235B	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Qwen3 235B.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Qwen3 32B	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Qwen3 32B.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Qwen3 Coder 30B	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Qwen3 Coder 30B.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Qwen3 Coder 480B	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Qwen3 Coder 480B.
Suma de los trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Qwen3 Coder Next	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Qwen3 Coder Next.
Suma de los trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Qwen3 Next 80B	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Qwen3 Next 80B.
Suma de los trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Qwen3 VL 235B	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para el Qwen3 VL 235B.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Titan Multimodal Embeddings G1	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Titan Multimodal Embeddings G1.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Titan Text Embeddings V2	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Titan Text Embeddings V2.
Suma de los trabajos de inferencia de lotes en curso y enviados utilizando un modelo base para Voxtral Mini 3B 2507	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para el Voxtral Mini 3B 2507.
Suma de los trabajos de inferencia de lotes en curso y enviados utilizando un modelo base para Voxtral Small 24B 2507	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Voxtral Small 24B 2507.
Suma de los trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Writer Palmyra Vision 7B	Cada región admitida: 100	Sí	El número máximo de trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Writer Palmyra Vision 7B.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo personalizado para Titan Multimodal Embeddings G1	Cada región admitida: 3	No	El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo personalizado para Titan Multimodal Embeddings G1.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo personalizado para Titan Text Embeddings V2	Cada región admitida: 3	No	El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo personalizado para Titan Text Embeddings V2
Límite de velocidad de aceleración para Bedrock Data Automation Runtime: ListTagsForResource	Cada región admitida: 25 por segundo	No	El número máximo de tiempo de ejecución de Bedrock Data Automation: ListTagsForResource solicitudes que puede realizar por segundo por cuenta, en la región actual
Límite de velocidad de aceleración para Bedrock Data Automation Runtime: TagResource	Cada región admitida: 25 por segundo	No	El número máximo de tiempo de ejecución de Bedrock Data Automation: TagResource solicitudes que puede realizar por segundo por cuenta, en la región actual
Límite de velocidad de aceleración para Bedrock Data Automation Runtime: UntagResource	Cada región admitida: 25 por segundo	No	El número máximo de tiempo de ejecución de Bedrock Data Automation: UntagResource solicitudes que puede realizar por segundo por cuenta, en la región actual
Límite de velocidad de aceleración para Bedrock Data Automation: ListTagsForResource	Cada región admitida: 25 por segundo	No	La cantidad máxima de Bedrock Data Automation: ListTagsForResource solicitudes que puede realizar por segundo por cuenta, en la región actual
Límite de velocidad de aceleración para Bedrock Data Automation: TagResource	Cada región admitida: 25 por segundo	No	La cantidad máxima de Bedrock Data Automation: TagResource solicitudes que puede realizar por segundo por cuenta, en la región actual
Límite de velocidad de aceleración para Bedrock Data Automation: UntagResource	Cada región admitida: 25 por segundo	No	La cantidad máxima de Bedrock Data Automation: UntagResource solicitudes que puede realizar por segundo por cuenta, en la región actual
Límite de velocidad de aceleración para CreateBlueprint	Cada región admitida: 5 por segundo	No	El número máximo de CreateBlueprint solicitudes que puedes realizar por segundo por cuenta, en la región actual
Límite de velocidad de aceleración para CreateBlueprintVersion	Cada región admitida: 5 por segundo	No	El número máximo de CreateBlueprintVersion solicitudes que puedes realizar por segundo por cuenta, en la región actual
Límite de velocidad de aceleración para CreateDataAutomationLibrary	Cada región admitida: 3 por segundo	No	El número máximo de CreateDataAutomationLibrary solicitudes que puedes realizar por segundo por cuenta, en la región actual
Límite de velocidad de aceleración para CreateDataAutomationProject	Cada región admitida: 5 por segundo	No	El número máximo de CreateDataAutomationProject solicitudes que puedes realizar por segundo por cuenta, en la región actual
Límite de velocidad de aceleración para DeleteBlueprint	Cada región admitida: 5 por segundo	No	El número máximo de DeleteBlueprint solicitudes que puedes realizar por segundo por cuenta, en la región actual
Límite de velocidad de aceleración para DeleteDataAutomationLibrary	Cada región admitida: 3 por segundo	No	El número máximo de DeleteDataAutomationLibrary solicitudes que puedes realizar por segundo por cuenta, en la región actual
Límite de velocidad de aceleración para DeleteDataAutomationProject	Cada región admitida: 5 por segundo	No	El número máximo de DeleteDataAutomationProject solicitudes que puedes realizar por segundo por cuenta, en la región actual
Límite de velocidad de aceleración para GetBlueprint	Cada región admitida: 5 por segundo	No	El número máximo de GetBlueprint solicitudes que puedes realizar por segundo por cuenta, en la región actual
Límite de velocidad de aceleración para GetDataAutomationLibrary	Cada región admitida: 5 por segundo	No	El número máximo de GetDataAutomationLibrary solicitudes que puedes realizar por segundo por cuenta, en la región actual
Límite de velocidad de aceleración para GetDataAutomationLibraryEntity	Cada región admitida: 5 por segundo	No	El número máximo de GetDataAutomationLibraryEntity solicitudes que puedes realizar por segundo por cuenta, en la región actual
Límite de velocidad de aceleración para GetDataAutomationLibraryIngestionJob	Cada región admitida: 5 por segundo	No	El número máximo de GetDataAutomationLibraryIngestionJob solicitudes que puedes realizar por segundo por cuenta, en la región actual
Límite de velocidad de aceleración para GetDataAutomationProject	Cada región admitida: 5 por segundo	No	El número máximo de GetDataAutomationProject solicitudes que puedes realizar por segundo por cuenta, en la región actual
Límite de velocidad de aceleración para GetDataAutomationStatus	Cada región admitida: 10 por segundo	No	El número máximo de GetDataAutomationStatus solicitudes que puedes realizar por segundo por cuenta, en la región actual
Límite de velocidad de aceleración para InvokeDataAutomationAsync	Cada región admitida: 10 por segundo	No	El número máximo de InvokeDataAutomationAsync solicitudes que puedes realizar por segundo por cuenta, en la región actual
Límite de velocidad de aceleración para InvokeDataAutomationLibraryIngestionJob	Cada región admitida: 5 por segundo	No	El número máximo de InvokeDataAutomationLibraryIngestionJob solicitudes que puedes realizar por segundo por cuenta, en la región actual
Límite de velocidad de aceleración para ListBlueprints	Cada región admitida: 5 por segundo	No	El número máximo de ListBlueprints solicitudes que puedes realizar por segundo por cuenta, en la región actual
Límite de velocidad de aceleración para ListDataAutomationLibraries	Cada región admitida: 5 por segundo	No	El número máximo de ListDataAutomationLibraries solicitudes que puedes realizar por segundo por cuenta, en la región actual
Límite de velocidad de aceleración para ListDataAutomationLibraryEntities	Cada región admitida: 5 por segundo	No	El número máximo de ListDataAutomationLibraryEntities solicitudes que puedes realizar por segundo por cuenta, en la región actual
Límite de velocidad de aceleración para ListDataAutomationLibraryIngestionJobs	Cada región admitida: 5 por segundo	No	El número máximo de ListDataAutomationLibraryIngestionJobs solicitudes que puedes realizar por segundo por cuenta, en la región actual
Límite de velocidad de aceleración para ListDataAutomationProjects	Cada región admitida: 5 por segundo	No	El número máximo de ListDataAutomationProjects solicitudes que puedes realizar por segundo por cuenta, en la región actual
Límite de velocidad de aceleración para UpdateBlueprint	Cada región admitida: 5 por segundo	No	El número máximo de UpdateBlueprint solicitudes que puedes realizar por segundo por cuenta, en la región actual
Límite de velocidad de aceleración para UpdateDataAutomationLibrary	Cada región admitida: 5 por segundo	No	El número máximo de UpdateDataAutomationLibrary solicitudes que puedes realizar por segundo por cuenta, en la región actual
Límite de velocidad de aceleración para UpdateDataAutomationProject	Cada región admitida: 5 por segundo	No	El número máximo de UpdateDataAutomationProject solicitudes que puedes realizar por segundo por cuenta, en la región actual
UpdateAgent solicitudes por segundo	Cada región admitida: 4	No	El número máximo de solicitudes de UpdateAgent API por segundo.
UpdateAgentActionGroup solicitudes por segundo	Cada región admitida: 6	No	El número máximo de solicitudes de UpdateAgentActionGroup API por segundo.
UpdateAgentAlias solicitudes por segundo	Cada región admitida: 2	No	El número máximo de solicitudes de UpdateAgentAlias API por segundo.
UpdateAgentKnowledgeBase solicitudes por segundo	Cada región admitida: 4	No	El número máximo de solicitudes de UpdateAgentKnowledgeBase API por segundo.
[punto final de bedrock-mantle] Introduce fichas por minuto para Claude Opus 4.7	Cada región admitida: 20 000 000	Sí	[punto final de bedrock-mantle] El número máximo de fichas de entrada por minuto que tu cuenta puede enviar a Claude Opus 4.7 en esta región. Se comparte en todas las API de este modelo.
[punto final de bedrock-mantle] Introduce fichas por minuto para Claude Opus 4.8	Cada región admitida: 20 000 000	Sí	[punto final de bedrock-mantle] El número máximo de fichas de entrada por minuto que tu cuenta puede enviar a Claude Opus 4.8 en esta región. Se comparte en todas las API de este modelo.
[punto final de bedrock-mantle] Introduzca fichas por minuto para GPT-5.4	Cada región admitida: 20 000 000	Sí	[punto final de bedrock-mantle] La cantidad máxima de fichas de entrada por minuto a las que puede enviar tu cuenta en esta región. GPT-5.4 Se comparte en todas las API de este modelo.
[punto final de bedrock-mantle] Introduzca fichas por minuto para GPT-5.5	Cada región admitida: 10 000 000	Sí	[punto final de bedrock-mantle] La cantidad máxima de fichas de entrada por minuto a las que puede enviar tu cuenta en esta región. GPT-5.5 Se comparte en todas las API de este modelo.
[punto final de bedrock-mantle] Genera fichas por minuto para Claude Opus 4.7	Cada región admitida: 2 000 000	Sí	[punto final de bedrock-mantle] La cantidad máxima de fichas de salida por minuto que Claude Opus 4.7 puede generar para tu cuenta en esta región. Se comparte en todas las API de este modelo.
[punto final de bedrock-mantle] Genera fichas por minuto para Claude Opus 4.8	Cada región admitida: 2 000 000	Sí	[punto final de bedrock-mantle] La cantidad máxima de fichas de salida por minuto que Claude Opus 4.8 puede generar para tu cuenta en esta región. Se comparte en todas las API de este modelo.
[punto final de bedrock-mantle] Genera fichas por minuto para GPT-5.4	Cada región admitida: 2 000 000	Sí	[punto final de bedrock-mantle] La cantidad máxima de fichas generadas por minuto GPT-5.4 para tu cuenta en esta región. Se comparte en todas las API de este modelo.
[punto final de bedrock-mantle] Genera fichas por minuto para GPT-5.5	Cada región admitida: 1 000 000	Sí	[punto final de bedrock-mantle] La cantidad máxima de fichas generadas por minuto GPT-5.5 para tu cuenta en esta región. Se comparte en todas las API de este modelo.

nota

Para solicitar un aumento de todas las cuotas de su cuenta, siga los siguientes pasos:

Si una cuota está marcada como Sí, puede ajustarla siguiendo los pasos que se indican en Solicitar un aumento de cuota en la Guía del usuario de Service Quotas.
Si una cuota está marcada como No, puede enviar una solicitud a través del formulario de aumento del límite para que se considere su posibilidad de aumentarla.
No puede solicitar un aumento para las cuotas siguientes.
- Cross-Region InvokeModel fichas por minuto para ${model}
- Cross-Region InvokeModel solicitudes por minuto para ${model}
- On-demand InvokeModel fichas por minuto para ${model}
- On-demand InvokeModel solicitudes por minuto para ${model}
Para solicitar un aumento de cualquier combinación de estas cuotas, solicita un aumento de los Cross-Region InvokeModel tokens por minuto de la ${model} cuota siguiendo los pasos que se indican en la Guía del usuario sobre cómo solicitar un aumento de cuota en la Guía del usuario de Service Quotas. Cuando lo hagas, el equipo de soporte se pondrá en contacto contigo y te ofrecerá la opción de aumentar también las otras tres cuotas. Debido a la abrumadora demanda, se dará prioridad a los clientes que generen tráfico que consuma la cuota que tienen asignada. La solicitud se denegará si no cumple esta condición.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

AWS Batch

Amazon Bedrock AgentCore