オンデマンド推論
オンデマンド推論は、プロビジョニングされた容量を必要とせずに、Amazon Nova モデルへのサーバーレスアクセスを提供します。このモードは、ワークロードを処理するために自動的にスケールし、使用量に基づいて課金されます。
利点
オンデマンド推論にはいくつかの利点があります。
-
キャパシティプランニングなし: 需要に合わせて自動的にスケーリング
-
従量課金制: 処理されたトークンに対してのみ課金されます
-
即時に利用可能: プロビジョニングやウォームアップ時間は不要
-
コスト効率: 可変または予測不可能なワークロードに最適
オンデマンド推論の使用
オンデマンド推論は、Amazon Nova モデルのデフォルトモードです。API コールを行うときにモデル ID を指定するだけです。
import boto3 bedrock = boto3.client('bedrock-runtime', region_name='us-east-1') response = bedrock.converse( modelId='us.amazon.nova-2-lite-v1:0', messages=[ { 'role': 'user', 'content': [{'text': 'Hello, Nova!'}] } ] ) # Print the response text content_list = response["output"]["message"]["content"] text = next((item["text"] for item in content_list if "text" in item), None) if text is not None: print(text)
料金
オンデマンド推論は、処理された入出力トークンの数に基づいて請求されます。料金の詳細については、「Amazon Bedrock の料金
クォータと制限
オンデマンド推論には、モデルとリージョンによって異なるデフォルトのクォータがあります。クォータの引き上げをリクエストするには、 Service Quotas コンソール