Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Inferensi sesuai permintaan
Inferensi sesuai permintaan menyediakan akses tanpa server ke model Amazon Nova tanpa memerlukan kapasitas yang disediakan. Mode ini secara otomatis menskalakan untuk menangani beban kerja dan biaya berdasarkan penggunaan.
Manfaat
Inferensi sesuai permintaan menawarkan beberapa keuntungan:
-
Tidak ada perencanaan kapasitas: Secara otomatis skala untuk memenuhi permintaan
-
Bayar per penggunaan: Hanya dikenakan biaya untuk token yang diproses
-
Ketersediaan instan: Tidak diperlukan waktu penyediaan atau pemanasan
-
Hemat biaya: Ideal untuk beban kerja variabel atau tidak terduga
Menggunakan inferensi sesuai permintaan
Inferensi sesuai permintaan adalah mode default untuk model Amazon Nova. Cukup tentukan ID model saat melakukan panggilan API:
import boto3 bedrock = boto3.client('bedrock-runtime', region_name='us-east-1') response = bedrock.converse( modelId='us.amazon.nova-2-lite-v1:0', messages=[ { 'role': 'user', 'content': [{'text': 'Hello, Nova!'}] } ] ) # Print the response text content_list = response["output"]["message"]["content"] text = next((item["text"] for item in content_list if "text" in item), None) if text is not None: print(text)
Harga
Inferensi sesuai permintaan ditagih berdasarkan jumlah token input dan output yang diproses. Untuk detail harga saat ini, lihat harga Amazon Bedrock
Kuota dan batas
Inferensi sesuai permintaan memiliki kuota default yang bervariasi menurut model dan wilayah. Untuk meminta peningkatan kuota, gunakan konsol Service Quotas