Traitez plusieurs demandes grâce à l'inférence par lots - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Traitez plusieurs demandes grâce à l'inférence par lots

Grâce à l'inférence par lots, vous pouvez envoyer plusieurs invites et générer des réponses de manière asynchrone. L'inférence par lots vous permet de traiter efficacement un grand nombre de demandes en envoyant une seule demande et en générant les réponses dans un compartiment Amazon S3. Après avoir défini les entrées du modèle dans les fichiers que vous créez, vous chargez les fichiers dans un compartiment S3. Vous soumettez ensuite une demande d'inférence par lots et spécifiez le compartiment S3. Une fois le travail terminé, vous pouvez récupérer les fichiers de sortie depuis S3. Vous pouvez utiliser l’inférence par lots pour améliorer les performances de l’inférence des modèles sur les jeux de données volumineux.

Note

L'inférence par lots n'est pas prise en charge pour les modèles provisionnés.

Consultez les ressources suivantes pour obtenir des informations générales sur l'inférence par lots :