Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Traitez plusieurs demandes grâce à l'inférence par lots
Grâce à l'inférence par lots, vous pouvez envoyer plusieurs invites et générer des réponses de manière asynchrone. L'inférence par lots vous permet de traiter efficacement un grand nombre de demandes en envoyant une seule demande et en générant les réponses dans un compartiment Amazon S3. Après avoir défini les entrées du modèle dans les fichiers que vous créez, vous chargez les fichiers dans un compartiment S3. Vous soumettez ensuite une demande d'inférence par lots et spécifiez le compartiment S3. Une fois le travail terminé, vous pouvez récupérer les fichiers de sortie depuis S3. Vous pouvez utiliser l’inférence par lots pour améliorer les performances de l’inférence des modèles sur les jeux de données volumineux.
Note
L'inférence par lots n'est pas prise en charge pour les modèles provisionnés.
Consultez les ressources suivantes pour obtenir des informations générales sur l'inférence par lots :
-
Pour connaître les tarifs de l'inférence par lots, consultez les tarifs d'Amazon Bedrock
. -
Pour voir les quotas pour l'inférence par lots, consultez les points de terminaison et quotas d'Amazon Bedrock dans le. Références générales AWS
Rubriques
- Régions et modèles pris en charge pour l'inférence par lots
- Conditions préalables à l'inférence par lots
- Création d’une tâche d’inférence par lots
- Surveillez les tâches d'inférence par lots
- Arrêt d’une tâche d’inférence par lots
- Afficher les résultats d'une tâche d'inférence par lots
- Exemples de code pour l'inférence par lots