Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
catatan
Amazon Bedrock prompt caching saat ini hanya tersedia untuk sejumlah pelanggan tertentu. Untuk mempelajari lebih lanjut tentang berpartisipasi dalam pratinjau, lihat caching prompt Amazon Bedrock
Prompt caching adalah fitur opsional yang dapat Anda gunakan saat mendapatkan inferensi model di Amazon Bedrock untuk mencapai pengurangan latensi respons. Anda dapat menambahkan bagian dari percakapan Anda ke cache sehingga model dapat menggunakan kembali konteks dalam cache alih-alih sepenuhnya memproses input dan respons komputasi setiap kali.
Caching cepat dapat membantu ketika Anda memiliki beban kerja dengan konteks panjang dan berulang yang sering digunakan kembali untuk beberapa kueri. Misalnya, jika Anda memiliki chatbot tempat pengguna dapat mengunggah dokumen dan mengajukan pertanyaan tentang mereka, model dapat memakan waktu untuk memproses dokumen setiap kali pengguna memberikan input. Dengan caching yang cepat, Anda dapat menyimpan dokumen dalam konteks percakapan untuk respons yang lebih cepat.
Saat menggunakan caching prompt, Anda dikenakan biaya pada tingkat yang lebih rendah untuk inferensi dan tarif yang berbeda untuk berapa banyak token yang dibaca dan ditulis ke cache. Untuk informasi selengkapnya, lihat halaman harga Amazon Bedrock
Cara kerjanya
Jika Anda memilih untuk menggunakan caching prompt, Amazon Bedrock membuat cache yang terdiri dari pos pemeriksaan cache. Ini adalah pos pemeriksaan di mana seluruh awalan prompt yang mengarah ke titik itu di-cache. Dalam permintaan berikutnya, model dapat mengambil informasi yang di-cache ini alih-alih memprosesnya lagi, menghasilkan waktu respons yang lebih cepat dan mengurangi biaya.
Pos pemeriksaan cache memiliki jumlah token minimum dan maksimum, tergantung pada model spesifik yang Anda gunakan. Anda hanya dapat membuat pos pemeriksaan cache jika awalan prompt total Anda memenuhi jumlah minimum token. Misalnya, model Anthropic Claude 3.5 Sonnet v2 membutuhkan 1.024 token untuk pos pemeriksaan cache. Anda dapat membuat pos pemeriksaan pertama setelah prompt Anda dan respons model mencapai 1.024 token. Anda dapat membuat pos pemeriksaan kedua setelah totalnya mencapai 2.048 token. Jika Anda mencoba menambahkan pos pemeriksaan cache tanpa memenuhi jumlah minimum token, permintaan inferensi Anda masih berhasil tetapi pos pemeriksaan tidak ditambahkan ke cache.
Cache memiliki Time To Live (TTL) lima menit, yang disetel ulang dengan setiap hit cache yang berhasil. Selama periode ini, konteks dalam cache dipertahankan. Jika tidak ada klik cache yang terjadi di dalam jendela TTL, cache Anda kedaluwarsa.
Jika cache Anda kedaluwarsa, Anda dapat menggunakan kembali konteks yang sebelumnya di-cache hingga saat itu sebagai pos pemeriksaan cache pertama dari cache baru.
Anda dapat menggunakan caching prompt kapan pun Anda mendapatkan inferensi model di Amazon Bedrock untuk model yang didukung. Prompt caching didukung oleh fitur Amazon Bedrock berikut:
- Converse dan ConverseStream APIs
-
Anda dapat melakukan percakapan dengan model tempat Anda menentukan pos pemeriksaan cache di prompt Anda.
- InvokeModel dan InvokeModelWithResponseStream APIs
-
Anda dapat mengirimkan permintaan prompt tunggal di mana Anda mengaktifkan caching prompt dan menentukan pos pemeriksaan cache Anda.
- Agen Batuan Dasar Amazon
-
Saat Anda membuat atau memperbarui agen, Anda dapat memilih untuk mengaktifkan atau menonaktifkan caching prompt. Amazon Bedrock secara otomatis menangani caching prompt dan perilaku pos pemeriksaan untuk Anda.
Ini APIs memberi Anda fleksibilitas dan kontrol terperinci atas cache prompt. Anda dapat mengatur setiap pos pemeriksaan cache individu dalam permintaan Anda. Anda dapat menambahkan ke cache dengan membuat lebih banyak pos pemeriksaan cache, hingga jumlah maksimum pos pemeriksaan cache yang diizinkan untuk model tertentu. Untuk informasi selengkapnya, lihat Model, wilayah, dan batas yang didukung.
Untuk menggunakan caching cepat dengan fitur lain seperti Amazon Bedrock Agents, Anda cukup mengaktifkan bidang caching prompt saat membuat atau memperbarui agen Anda. Saat Anda mengaktifkan caching prompt, perilaku caching dan pos pemeriksaan cache ditangani secara otomatis untuk Anda oleh Amazon Bedrock.
Model, wilayah, dan batas yang didukung
Tabel berikut mencantumkan yang didukung Wilayah AWS, token minimum, jumlah maksimum pos pemeriksaan cache, dan bidang yang memungkinkan pos pemeriksaan cache untuk setiap model yang didukung.
Nama model | ID Model | Wilayah yang mendukung caching cepat | Jumlah minimum token per pos pemeriksaan cache | Jumlah maksimum pos pemeriksaan cache | Bidang di mana Anda dapat menambahkan pos pemeriksaan cache |
---|---|---|---|---|---|
Amazon Nova Mikro v1 |
Amazon. nova-micro-v1:0 |
AS Timur (Virginia Utara) AS Barat (Oregon) |
1 |
1 |
|
Amazon Nova Lite v1 |
Amazon. nova-lite-v1:0 |
AS Timur (Virginia Utara) AS Barat (Oregon) |
1 |
1 |
|
Amazon Nova Pro v1 |
Amazon. nova-pro-v1:0 |
AS Timur (Virginia Utara) AS Barat (Oregon) |
1 |
1 |
|
Claude 3.5 Haiku |
anthropic.claude-3-5-haiku-20241022-v 1:0 |
Inferensi reguler: AS Barat (Oregon)
|
2,048 |
4 |
|
Claude 3.5 Soneta v2 |
anthropic.claude-3-5-sonnet-20241022-v 2:0 |
Inferensi reguler: AS Barat (Oregon)
|
1,024 |
4 |
|
Memulai
Bagian berikut menunjukkan gambaran singkat tentang cara menggunakan fitur caching prompt untuk setiap metode berinteraksi dengan model melalui Amazon Bedrock.
Converse API menyediakan opsi lanjutan dan fleksibel untuk menerapkan caching cepat dalam percakapan multi-putaran. Untuk informasi selengkapnya tentang persyaratan prompt untuk setiap model, lihat bagian sebelumnya. Model, wilayah, dan batas yang didukung
Permintaan contoh
Contoh berikut menunjukkan pos pemeriksaan cache yang disetel di messages
system
,, atau tools
bidang permintaan ke Converse API. Anda dapat menempatkan pos pemeriksaan di salah satu lokasi ini untuk permintaan tertentu. Misalnya, jika mengirim permintaan ke model Claude 3.5 Sonnet v2, Anda dapat menempatkan dua pos pemeriksaan cache, satu pos pemeriksaan cachemessages
, dan satu disystem
. tools
Untuk informasi lebih rinci dan contoh penataan dan pengiriman Converse Permintaan API, lihatLakukan percakapan dengan Converse Operasi API.
Respon model dari Converse API mencakup dua bidang baru yang khusus untuk prompt caching. CacheWriteInputTokens
Nilai CacheReadInputTokens
dan memberi tahu Anda berapa banyak token yang dibaca dari cache dan berapa banyak token yang ditulis ke cache karena permintaan Anda sebelumnya. Ini adalah nilai yang dikenakan biaya oleh Amazon Bedrock, dengan tarif yang lebih rendah dari biaya inferensi model penuh.
Caching prompt diaktifkan secara default saat Anda memanggil InvokeModelAPI. Anda dapat mengatur pos pemeriksaan cache di titik mana pun di badan permintaan Anda, mirip dengan contoh sebelumnya untuk Converse API.
Contoh berikut menunjukkan bagaimana menyusun badan InvokeModel permintaan Anda untuk Anthropic Claude 3.5 Sonnet model v2. Perhatikan bahwa format dan bidang yang tepat dari isi InvokeModel permintaan dapat bervariasi tergantung pada model yang Anda pilih. Untuk melihat format dan konten badan permintaan dan respons untuk model yang berbeda, lihatParameter permintaan inferensi dan bidang respons untuk model pondasi.
body={
"anthropic_version": "bedrock-2023-05-31",
"system":"Reply concisely",
"messages": [
{
"role": "user",
"content": [
{
"type": "text",
"text": "Describe the best way to learn programming."
},
{
"type": "text",
"text": "Add additional context here for the prompt that meets the minimum token requirement for your chosen model.",
"cache_control": {
"type": "ephemeral"
}
}
]
}
],
"max_tokens": 2048,
"temperature": 0.5,
"top_p": 0.8,
"stop_sequences": [
"stop"
],
"top_k": 250
}
Untuk informasi selengkapnya tentang mengirim InvokeModel permintaan, lihatKirim satu prompt dengan InvokeModel.
Di taman bermain obrolan di konsol Amazon Bedrock, Anda dapat mengaktifkan opsi caching prompt, dan Amazon Bedrock secara otomatis membuat pos pemeriksaan cache untuk Anda.
Ikuti instruksi Hasilkan tanggapan di konsol menggunakan taman bermain untuk memulai dengan meminta di taman bermain Amazon Bedrock. Untuk model yang didukung, caching prompt secara otomatis dihidupkan di taman bermain. Namun, jika tidak, lakukan hal berikut untuk mengaktifkan caching prompt:
-
Di panel sisi kiri, buka menu Konfigurasi.
-
Aktifkan sakelar Prompt caching.
-
Jalankan petunjuk Anda.
Setelah input gabungan dan respons model Anda mencapai jumlah token minimum yang diperlukan untuk pos pemeriksaan (yang bervariasi menurut model), Amazon Bedrock secara otomatis membuat pos pemeriksaan cache pertama untuk Anda. Saat Anda terus mengobrol, setiap jangkauan berikutnya dari jumlah minimum token menciptakan pos pemeriksaan baru, hingga jumlah maksimum pos pemeriksaan yang diizinkan untuk model tersebut. Anda dapat melihat pos pemeriksaan cache Anda kapan saja dengan memilih Lihat pos pemeriksaan cache di sebelah sakelar caching Prompt, seperti yang ditunjukkan pada gambar berikut.

Anda dapat melihat berapa banyak token yang dibaca dan ditulis ke cache karena setiap interaksi dengan model dengan melihat metrik Caching pop-up (
) di respons taman bermain.

Jika Anda mematikan sakelar caching prompt saat berada di tengah percakapan, Anda dapat terus mengobrol dengan model.