Pilih preferensi cookie Anda

Kami menggunakan cookie penting serta alat serupa yang diperlukan untuk menyediakan situs dan layanan. Kami menggunakan cookie performa untuk mengumpulkan statistik anonim sehingga kami dapat memahami cara pelanggan menggunakan situs dan melakukan perbaikan. Cookie penting tidak dapat dinonaktifkan, tetapi Anda dapat mengklik “Kustom” atau “Tolak” untuk menolak cookie performa.

Jika Anda setuju, AWS dan pihak ketiga yang disetujui juga akan menggunakan cookie untuk menyediakan fitur situs yang berguna, mengingat preferensi Anda, dan menampilkan konten yang relevan, termasuk iklan yang relevan. Untuk menerima atau menolak semua cookie yang tidak penting, klik “Terima” atau “Tolak”. Untuk membuat pilihan yang lebih detail, klik “Kustomisasi”.

Optimalkan inferensi model untuk latensi

Mode fokus
Optimalkan inferensi model untuk latensi - Amazon Bedrock

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

catatan

Fitur Inferensi yang Dioptimalkan Latensi ada dalam rilis pratinjau untuk Amazon Bedrock dan dapat berubah sewaktu-waktu.

Inferensi yang dioptimalkan latensi untuk model dasar dalam Amazon Bedrock memberikan waktu respons yang lebih cepat dan peningkatan respons untuk aplikasi AI. Versi yang dioptimalkan dari model Claude 3.5 Haiku Anthropic dan model Meta Llama 3.1 405B dan 70B menawarkan latensi yang berkurang secara signifikan tanpa mengorbankan akurasi.

Mengakses kemampuan optimasi latensi tidak memerlukan pengaturan tambahan atau penyesuaian model, memungkinkan peningkatan segera aplikasi yang ada dengan waktu respons yang lebih cepat. Anda dapat menyetel parameter “Latency” ke “dioptimalkan” saat memanggil API runtime Amazon Bedrock. Jika Anda memilih “standar” sebagai opsi pemanggilan Anda, permintaan Anda akan dilayani oleh inferensi standar. Secara default semua permintaan dirutekan ke melalui “standar”.

“performanceConfig” : { “latency” : “standard | optimized” }

Setelah Anda mencapai kuota penggunaan untuk optimasi latensi untuk model, kami akan mencoba untuk melayani permintaan dengan latensi Standar. Dalam kasus seperti itu, permintaan akan dikenakan tarif latensi Standar. Konfigurasi latensi untuk permintaan yang disajikan terlihat dalam respons API dan AWS CloudTrail log. Anda juga dapat melihat metrik untuk permintaan latensi yang dioptimalkan di Amazon CloudWatch log di bawah “model-id+latency-optimized”.

Inferensi yang dioptimalkan latensi tersedia untuk Meta Llama 3.1 70B dan 405B, serta Claude 3.5 Haiku Anthropic di wilayah Timur AS (Ohio) dan AS Barat (Oregon) melalui inferensi lintas wilayah.

Untuk informasi lebih lanjut tentang harga, kunjungi halaman harga.

catatan

Inferensi yang dioptimalkan latensi untuk Llama 3.1 405B saat ini mendukung permintaan dengan total jumlah token input dan output hingga 11K. Untuk permintaan jumlah token yang lebih besar, kita akan kembali ke mode standar.

Model Yayasan Id Model Wilayah yang Didukung

Antropik Claude 3.5 Haiku

kami.anthropic.claude-3-5-haiku-20241022-v 1:0

AS Timur (Ohio), AS Barat (Oregon)

Instruksi Meta Llama 3.1 70B us.meta.llama3-1-70 1:0 b-instruct-v

AS Timur (Ohio), AS Barat (Oregon)

Instruksi Llama 3.1 405B

us.meta.llama3-1-405 1:0 b-instruct-v AS Timur (Ohio)
PrivasiSyarat situsPreferensi cookie
© 2025, Amazon Web Services, Inc. atau afiliasinya. Semua hak dilindungi undang-undang.