View a markdown version of this page

オンデマンド推論 - Amazon Nova

オンデマンド推論

オンデマンド推論は、プロビジョニングされた容量を必要とせずに、Amazon Nova モデルへのサーバーレスアクセスを提供します。このモードは、ワークロードを処理するために自動的にスケールし、使用量に基づいて課金されます。

利点

オンデマンド推論にはいくつかの利点があります。

  • キャパシティプランニングなし: 需要に合わせて自動的にスケーリング

  • 従量課金制: 処理されたトークンに対してのみ課金されます

  • 即時に利用可能: プロビジョニングやウォームアップ時間は不要

  • コスト効率: 可変または予測不可能なワークロードに最適

オンデマンド推論の使用

オンデマンド推論は、Amazon Nova モデルのデフォルトモードです。API コールを行うときにモデル ID を指定するだけです。

import boto3 bedrock = boto3.client('bedrock-runtime', region_name='us-east-1') response = bedrock.converse( modelId='us.amazon.nova-2-lite-v1:0', messages=[ { 'role': 'user', 'content': [{'text': 'Hello, Nova!'}] } ] ) # Print the response text content_list = response["output"]["message"]["content"] text = next((item["text"] for item in content_list if "text" in item), None) if text is not None: print(text)

料金

オンデマンド推論は、処理された入出力トークンの数に基づいて請求されます。料金の詳細については、「Amazon Bedrock の料金」を参照してください。

クォータと制限

オンデマンド推論には、モデルとリージョンによって異なるデフォルトのクォータがあります。クォータの引き上げをリクエストするには、 Service Quotas コンソールを使用してください。