Procesamiento de múltiples peticiones con la inferencia por lotes

La inferencia por lotes le permite enviar varias peticiones y generar respuestas de forma asíncrona. Puede formatear los datos de entrada mediante el formato o el formato API. InvokeModel Converse La inferencia por lotes le ayuda a procesar una gran cantidad de solicitudes de manera eficiente al enviar una sola solicitud y generar las respuestas en un bucket de Amazon S3. Una vez definidas las entradas del modelo en los archivos que cree, los archivos se cargan a un bucket de S3. A continuación, envía una solicitud de inferencia por lotes y especifica el bucket de S3. Una vez finalizado el trabajo, podrá recuperar los archivos de salida de S3. Puede utilizar la inferencia por lotes para mejorar el rendimiento de la inferencia de modelos en conjuntos de datos de gran tamaño.

nota

Los modelos aprovisionados no admiten la inferencia por lotes.

nota

La inferencia por lotes no admite la llamada a herramientas (llamada a funciones) ni la salida estructurada (response_format). Cada registro del archivo JSONL de entrada se procesa de forma independiente sin la interacción de varios turnos, por lo que no están disponibles las funciones que requieren intercambios de ida y vuelta entre el modelo y el cliente.

Consulte los siguientes recursos para obtener información general sobre la inferencia por lotes:

Para ver los precios de la inferencia por lotes, consulte Amazon Bedrock pricing.
Para ver las cuotas de la inferencia por lotes, consulte Amazon Bedrock endpoints and quotas en la Referencia general de AWS.
Para recibir notificaciones cuando se completen los trabajos de inferencia por lotes o cambien de estado en lugar de realizar un sondeo, consulte. Supervisa los cambios en el estado laboral de Amazon Bedrock con Amazon EventBridge

Temas

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Niveles reservado, estándar, prioritario y flexible

Regiones y modelos admitidos