Sélectionner vos préférences de cookies

Nous utilisons des cookies essentiels et des outils similaires qui sont nécessaires au fonctionnement de notre site et à la fourniture de nos services. Nous utilisons des cookies de performance pour collecter des statistiques anonymes afin de comprendre comment les clients utilisent notre site et d’apporter des améliorations. Les cookies essentiels ne peuvent pas être désactivés, mais vous pouvez cliquer sur « Personnaliser » ou « Refuser » pour refuser les cookies de performance.

Si vous êtes d’accord, AWS et les tiers approuvés utiliseront également des cookies pour fournir des fonctionnalités utiles au site, mémoriser vos préférences et afficher du contenu pertinent, y compris des publicités pertinentes. Pour accepter ou refuser tous les cookies non essentiels, cliquez sur « Accepter » ou « Refuser ». Pour effectuer des choix plus détaillés, cliquez sur « Personnaliser ».

Optimisez l'inférence du modèle pour la latence

Mode de mise au point
Optimisez l'inférence du modèle pour la latence - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Note

La fonctionnalité d'inférence optimisée pour la latence est en version préliminaire Amazon Bedrock et est sujette à modification.

L'inférence optimisée en termes de latence pour les modèles de base Amazon Bedrock permet d'accélérer les temps de réponse et d'améliorer la réactivité des applications d'IA. Les versions optimisées du modèle Claude 3.5 Haiku d'Anthropic et des modèles Llama 3.1 405B et 70B de Meta offrent une latence considérablement réduite sans compromettre la précision.

L'accès à la fonctionnalité d'optimisation de la latence ne nécessite aucune configuration supplémentaire ni aucun ajustement précis du modèle, ce qui permet d'améliorer immédiatement les applications existantes avec des temps de réponse plus rapides. Vous pouvez définir le paramètre « Latence » sur « optimisé » lorsque vous appelez l'API d'exécution Amazon Bedrock. Si vous sélectionnez « standard » comme option d'invocation, vos demandes seront traitées par inférence standard. Par défaut, toutes les demandes sont acheminées via « standard ».

“performanceConfig” : { “latency” : “standard | optimized” }

Une fois que vous avez atteint le quota d'utilisation pour l'optimisation de la latence pour un modèle, nous essaierons de répondre à la demande avec une latence standard. Dans de tels cas, la demande sera facturée aux taux de latence standard. La configuration de latence pour une demande traitée est visible dans les réponses et les AWS CloudTrail journaux de l'API. Vous pouvez également consulter les métriques des demandes optimisées pour la latence dans les Amazon CloudWatch journaux sous « model-id+latency-optimized ».

L'inférence optimisée pour la latence est disponible pour les Llama 3.1 70B et 405B de Meta, ainsi que pour le Claude 3.5 Haiku d'Anthropic dans les régions de l'est des États-Unis (Ohio) et de l'ouest des États-Unis (Oregon) par inférence interrégionale.

Pour plus d'informations sur les tarifs, rendez-vous sur la page des tarifs.

Note

L'inférence optimisée pour la latence pour Llama 3.1 405B prend actuellement en charge les demandes avec un nombre total de jetons d'entrée et de sortie allant jusqu'à 11 000. Pour les demandes de nombre de jetons plus important, nous reviendrons au mode standard.

Modèle de fondation ID du modèle Région prise en charge

Haïku Anthropic Claude 3.5

us.anthropic.claude-3-5-haiku-20241022-v 1:0

USA Est (Ohio), USA Ouest (Oregon)

Meta Llama 3.1 70B Instruct us.meta.llama3-1-70 1:0 b-instruct-v

USA Est (Ohio), USA Ouest (Oregon)

Llama 3.1 405B Instruct

us.meta.llama3-1-405 1:0 b-instruct-v USA Est (Ohio)
ConfidentialitéConditions d'utilisation du sitePréférences de cookies
© 2025, Amazon Web Services, Inc. ou ses affiliés. Tous droits réservés.