Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Note
La fonctionnalité d'inférence optimisée pour la latence est en version préliminaire Amazon Bedrock et est sujette à modification.
L'inférence optimisée en termes de latence pour les modèles de base Amazon Bedrock permet d'accélérer les temps de réponse et d'améliorer la réactivité des applications d'IA. Les versions optimisées du modèle Claude 3.5 Haiku d'Anthropic et des modèles
L'accès à la fonctionnalité d'optimisation de la latence ne nécessite aucune configuration supplémentaire ni aucun ajustement précis du modèle, ce qui permet d'améliorer immédiatement les applications existantes avec des temps de réponse plus rapides. Vous pouvez définir le paramètre « Latence » sur « optimisé » lorsque vous appelez l'API d'exécution Amazon Bedrock. Si vous sélectionnez « standard » comme option d'invocation, vos demandes seront traitées par inférence standard. Par défaut, toutes les demandes sont acheminées via « standard ».
“performanceConfig” : { “latency” : “standard | optimized” }
Une fois que vous avez atteint le quota d'utilisation pour l'optimisation de la latence pour un modèle, nous essaierons de répondre à la demande avec une latence standard. Dans de tels cas, la demande sera facturée aux taux de latence standard. La configuration de latence pour une demande traitée est visible dans les réponses et les AWS CloudTrail journaux de l'API. Vous pouvez également consulter les métriques des demandes optimisées pour la latence dans les Amazon CloudWatch journaux sous « model-id+latency-optimized ».
Pour plus d'informations sur les tarifs, rendez-vous sur la page des tarifs
Note
L'inférence optimisée pour la latence pour Llama 3.1 405B prend actuellement en charge les demandes avec un nombre total de jetons d'entrée et de sortie allant jusqu'à 11 000. Pour les demandes de nombre de jetons plus important, nous reviendrons au mode standard.
Modèle de fondation | ID du modèle | Région prise en charge |
Haïku Anthropic Claude 3.5 |
us.anthropic.claude-3-5-haiku-20241022-v 1:0 |
USA Est (Ohio), USA Ouest (Oregon) |
Meta Llama 3.1 70B Instruct | us.meta.llama3-1-70 1:0 b-instruct-v |
USA Est (Ohio), USA Ouest (Oregon) |
Llama 3.1 405B Instruct |
us.meta.llama3-1-405 1:0 b-instruct-v | USA Est (Ohio) |