Inferencia de Amazon Bedrock

Cuando haya entrenado y probado el modelo de Amazon Nova, puede implementarlo en Amazon Bedrock para llevar a cabo inferencias a escala de producción. El proceso de implementación implica la creación de un modelo de Amazon Bedrock con la API CreateCustomModel, la exportación de los artefactos del modelo a dicho modelo desde un bucket de Amazon S3 administrado y, a continuación, una vez que el modelo esté ACTIVO, la configuración de un punto de conexión con inferencia de rendimiento bajo demanda o aprovisionada.

Después de crear un modelo personalizado en SageMaker, puede utilizar la API CreateCustomModel para implementarlo en Amazon Bedrock desde la custodia de SageMaker para ejecutar inferencias. A continuación, puede utilizar CreateCustomModelDeployment para crear un punto de conexión de inferencia bajo demanda o configurar la inferencia de rendimiento aprovisionada para un modelo de refinamiento eficiente de parámetros (PEFT). Puede configurar la inferencia de rendimiento aprovisionada para un modelo personalizado de rango completo.

También puede usar el SDK de Amazon Nova Forge para implementar modelos personalizados de Amazon Nova. El SDK de Amazon Nova Forge proporciona una experiencia optimizada para extraer la información relevante de un trabajo de entrenamiento o de un punto de control del modelo de S3 y publicarla en Amazon Bedrock. Para obtener información, consulte SDK de Amazon Nova Forge.

Para ver los pasos detallados a fin de configurar la inferencia de Amazon Bedrock para un modelo personalizado, consulte Implementación de modelos personalizados de Amazon Nova en Amazon Bedrock.

En la siguiente sección se ofrecen más detalles sobre la inferencia bajo demanda en modelos personalizados.

Inferencia bajo demanda sobre modelos personalizados

La inferencia bajo demanda (OD) le permite ejecutar inferencias en sus modelos personalizados de Amazon Nova sin mantener los puntos de conexión de rendimiento aprovisionados. Esto ayuda a optimizar los costos y a escalar de manera eficiente. Con la inferencia bajo demanda, se cobra en función del uso, medido en tokens, tanto en entradas como en salidas.

Requisitos de compatibilidad

Se aplican los siguientes requisitos de compatibilidad:

La inferencia bajo demanda se admite para los modelos de comprensión personalizados de Amazon Nova Pro, Lite y Micro. La inferencia OD no es compatible con los modelos de generación de contenido personalizados de Nova.
La inferencia OD es compatible con los modelos de comprensión personalizados de Amazon Nova entrenados después del 16 de julio de 2025. Los modelos personalizados entrenados antes del 16 de julio de 2025 no son compatibles con la inferencia OD.
Personalización de Amazon Bedrock: la inferencia OD es compatible con los modelos personalizados con la personalización de Amazon Bedrock y para los modelos aprendiz que se extrajeron de un modelo instructor con Amazon Bedrock.
Personalización de SageMaker AI: para los modelos personalizados en SageMaker AI, la inferencia OD solo es compatible con los modelos afinados con eficiencia de parámetros (PEFT) cuando el modelo está alojado en Amazon Bedrock. Esto incluye la optimización directa de preferencias más el PEFT. La inferencia OD no es compatible con los modelos de ajuste fino de rango completo.

Entrenamiento del modelo e inferencia

Cuando entrene un nuevo modelo Amazon Nova Pro, Lite o Micro personalizado en Amazon Bedrock o SageMaker AI mediante PEFT después del 16 de julio de 2025, dicho modelo será automáticamente compatible con las opciones de inferencia aprovisionadas y bajo demanda. Puede seleccionar el método de inferencia que prefiera durante la implementación del modelo.

Para utilizar la inferencia OD con un modelo entrenado después del 16 de julio de 2025, complete los siguientes pasos:

Cree un nuevo trabajo de afinación con la API de personalización de Amazon Bedrock o la API de personalización de SageMaker AI.
Implemente el modelo recién entrenado en Amazon Bedrock mediante la API de CreateCustomModel.
Realice la implementación para realizar inferencias bajo demanda mediante la API de CustomModelDeployment.

Límites de frecuencia

Los siguientes límites de solicitudes por minuto (RPM) y de tokens por minuto (TPM) se aplican a las solicitudes de inferencia bajo demanda:

Base Model for Custom Model	RPM per Custom Model Deployment	TPM per Custom Model Deployment
Nova 2 Lite	2,000	4,000,000

Para obtener más información acerca de las cuotas disponibles para Amazon Nova, consulte Cuotas para Amazon Nova.

Latencia

Puede esperar una diferencia de latencia de extremo a extremo (es decir, el tiempo transcurrido hasta el primer token [TTFT]) del 20 al 55 % entre la invocación del modelo base y el adaptador. El valor exacto de latencia varía según el tamaño del modelo y está en concordancia con los estándares del sector.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Detección de abusos para Amazon Nova Forge

Implementar un modelo personalizado para inferencia bajo demanda