Traitement de plusieurs invites grâce à l’inférence par lots

Grâce à l’inférence par lots, vous pouvez envoyer plusieurs invites et générer des réponses de manière asynchrone. Vous pouvez formater vos données d'entrée en utilisant le format InvokeModel ou le format Converse API. L’inférence par lots vous permet de traiter efficacement un grand nombre de demandes en envoyant une seule demande et en générant des réponses dans un compartiment Amazon S3. Après avoir défini les entrées du modèle dans les fichiers que vous créez, vous chargez les fichiers dans un compartiment S3. Vous soumettez ensuite une demande d’inférence par lots et spécifiez le compartiment S3. Une fois la tâche terminée, vous pouvez extraire les fichiers de sortie depuis S3. Vous pouvez utiliser l’inférence par lots pour améliorer les performances de l’inférence des modèles sur les jeux de données volumineux.

Note

L’inférence par lots n’est pas prise en charge pour les modèles provisionnés.

Note

L'inférence par lots ne prend pas en charge les appels d'outils (appels de fonctions) ni les sorties structurées (response_format). Chaque enregistrement du fichier JSONL d'entrée est traité indépendamment sans interaction multitour, de sorte que les fonctionnalités nécessitant des échanges aller-retour entre le modèle et le client ne sont pas disponibles.

Consultez les ressources suivantes pour obtenir des informations générales sur l'inférence par lots :

Pour connaître les tarifs de l’inférence par lots, consultez Tarification Amazon Bedrock.
Pour voir les quotas pour l’inférence par lots, consultez Points de terminaison et quotas Amazon Bedrock dans la Références générales AWS.
Pour recevoir des notifications lorsque les tâches d'inférence par lots sont terminées ou changent d'état au lieu d'être interrogées, consultezSurveillez l'évolution de l'état des tâches sur Amazon Bedrock à l'aide d'Amazon EventBridge.

Rubriques

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Niveaux réservés, standard, prioritaires et flexibles

Régions et modèles pris en charge