オンデマンド推論

オンデマンド推論は、プロビジョニングされた容量を必要とせずに、Amazon Nova モデルへのサーバーレスアクセスを提供します。このモードは、ワークロードを処理するために自動的にスケールし、使用量に基づいて課金されます。

利点

オンデマンド推論にはいくつかの利点があります。

キャパシティプランニングなし: 需要に合わせて自動的にスケーリング
従量課金制: 処理されたトークンに対してのみ課金されます
即時に利用可能: プロビジョニングやウォームアップ時間は不要
コスト効率: 可変または予測不可能なワークロードに最適

オンデマンド推論の使用

オンデマンド推論は、Amazon Nova モデルのデフォルトモードです。API コールを行うときにモデル ID を指定するだけです。


import boto3

bedrock = boto3.client('bedrock-runtime', region_name='us-east-1')

response = bedrock.converse(
    modelId='us.amazon.nova-2-lite-v1:0',
    messages=[
        {
            'role': 'user',
            'content': [{'text': 'Hello, Nova!'}]
        }
    ]
)

# Print the response text
content_list = response["output"]["message"]["content"]
text = next((item["text"] for item in content_list if "text" in item), None)
if text is not None:
    print(text)

料金

オンデマンド推論は、処理された入出力トークンの数に基づいて請求されます。料金の詳細については、「Amazon Bedrock の料金」を参照してください。

クォータと制限

オンデマンド推論には、モデルとリージョンによって異なるデフォルトのクォータがあります。クォータの引き上げをリクエストするには、 Service Quotas コンソールを使用してください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

Amazon Nova 埋め込みの使用

Nova 機能の使用