Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Lorsque vous soumettez une entrée à un modèle, le modèle prédit une séquence probable de jetons qui suit et renvoie cette séquence en sortie. Amazon Bedrock vous permet d'effectuer des inférences avec le modèle de base de votre choix. Lorsque vous exécutez l'inférence, vous fournissez les entrées suivantes :
-
Invite : entrée fournie au modèle afin qu’il génère une réponse. Pour en savoir plus sur la création d’invites, consultez Concepts d'ingénierie rapides. Pour plus d'informations sur la protection contre les attaques par injection rapide, consultezSécurité des injections rapides.
-
Modèle : modèle de base ou profil d'inférence avec lequel exécuter l'inférence. Le modèle ou le profil d'inférence que vous choisissez spécifie également un niveau de débit, qui définit le nombre et le débit de jetons d'entrée et de sortie que vous pouvez traiter. Pour plus d'informations sur les modèles de fondations disponibles sur Amazon Bedrock, consultezInformations sur le modèle de fondation Amazon Bedrock. Pour plus d'informations sur les profils d'inférence, consultezConfiguration d'un modèle de ressource d'invocation à l'aide de profils d'inférence. Pour plus d'informations sur l'augmentation du débit, reportez-vous aux sections Augmentez le débit grâce à l'inférence entre régions etAugmentez la capacité d'invocation des modèles grâce au débit provisionné dans Amazon Bedrock.
-
Paramètres d’inférence : ensemble de valeurs qui peuvent être ajustées pour limiter ou influencer la réponse du modèle. Pour en savoir plus sur les paramètres d’inférence, consultez Influencez la génération de réponses à l'aide de paramètres d'inférence et Paramètres de demande d'inférence et champs de réponse pour les modèles de base.
Invoquer des modèles dans différentes régions AWS
Lorsque vous invoquez un modèle, vous choisissez le modèle Région AWS dans lequel vous souhaitez l'invoquer. Les quotas relatifs à la fréquence et à la taille des demandes que vous pouvez faire dépendent de la région. Vous pouvez trouver ces quotas en recherchant les quotas suivants sur Amazon Bedrock service quotas :
-
Demandes d'inférence de modèles à la demande par minute pour
${Model}
-
InvokeModel Jetons à la demande par minute pour
${Model}
Vous pouvez également invoquer un profil d'inférence au lieu du modèle de base lui-même. Un profil d'inférence définit un modèle et une ou plusieurs régions vers lesquelles le profil d'inférence peut acheminer les demandes d'invocation de modèle. En invoquant un profil d'inférence qui inclut plusieurs régions, vous pouvez augmenter votre débit. Pour de plus amples informations, veuillez consulter Augmentez le débit grâce à l'inférence entre régions.
Les demandes adressées à une région peuvent être traitées à partir de zones locales partageant la même région mère. Par exemple, les demandes adressées à l'est des États-Unis (Virginie du Nord) (us-east-1) peuvent être traitées depuis n'importe quelle zone locale associée, telle qu'Atlanta, États-Unis (us-east-1-atl-2a).
Le même principe s'applique lors de l'utilisation de l'inférence entre régions. Par exemple, les demandes adressées aux États-Unis Anthropic Claude 3 Haiku le profil d'inférence peut être diffusé depuis n'importe quelle zone locale dont la région mère est aux États-Unis, telle que Seattle, États-Unis (us-west-2-sea-1a). Lorsque de nouvelles zones locales sont ajoutées AWS, elles sont également ajoutées au point de terminaison d'inférence interrégional correspondant.
Pour consulter la liste des points de terminaison locaux et des régions parentes auxquelles ils sont associés, consultez la section Emplacements AWS des zones locales