Caching cepat untuk inferensi model yang lebih cepat

Mode fokus

Caching cepat untuk inferensi model yang lebih cepat - Amazon Bedrock

Cara kerjanya Model, wilayah, dan batas yang didukung Memulai

catatan

Amazon Bedrock prompt caching saat ini hanya tersedia untuk sejumlah pelanggan tertentu. Untuk mempelajari lebih lanjut tentang berpartisipasi dalam pratinjau, lihat caching prompt Amazon Bedrock.

Prompt caching adalah fitur opsional yang dapat Anda gunakan saat mendapatkan inferensi model di Amazon Bedrock untuk mencapai pengurangan latensi respons. Anda dapat menambahkan bagian dari percakapan Anda ke cache sehingga model dapat menggunakan kembali konteks dalam cache alih-alih sepenuhnya memproses input dan respons komputasi setiap kali.

Caching cepat dapat membantu ketika Anda memiliki beban kerja dengan konteks panjang dan berulang yang sering digunakan kembali untuk beberapa kueri. Misalnya, jika Anda memiliki chatbot tempat pengguna dapat mengunggah dokumen dan mengajukan pertanyaan tentang mereka, model dapat memakan waktu untuk memproses dokumen setiap kali pengguna memberikan input. Dengan caching yang cepat, Anda dapat menyimpan dokumen dalam konteks percakapan untuk respons yang lebih cepat.

Saat menggunakan caching prompt, Anda dikenakan biaya pada tingkat yang lebih rendah untuk inferensi dan tarif yang berbeda untuk berapa banyak token yang dibaca dan ditulis ke cache. Untuk informasi selengkapnya, lihat halaman harga Amazon Bedrock.

Cara kerjanya

Jika Anda memilih untuk menggunakan caching prompt, Amazon Bedrock membuat cache yang terdiri dari pos pemeriksaan cache. Ini adalah pos pemeriksaan di mana seluruh awalan prompt yang mengarah ke titik itu di-cache. Dalam permintaan berikutnya, model dapat mengambil informasi yang di-cache ini alih-alih memprosesnya lagi, menghasilkan waktu respons yang lebih cepat dan mengurangi biaya.

Pos pemeriksaan cache memiliki jumlah token minimum dan maksimum, tergantung pada model spesifik yang Anda gunakan. Anda hanya dapat membuat pos pemeriksaan cache jika awalan prompt total Anda memenuhi jumlah minimum token. Misalnya, model Anthropic Claude 3.5 Sonnet v2 membutuhkan 1.024 token untuk pos pemeriksaan cache. Anda dapat membuat pos pemeriksaan pertama setelah prompt Anda dan respons model mencapai 1.024 token. Anda dapat membuat pos pemeriksaan kedua setelah totalnya mencapai 2.048 token. Jika Anda mencoba menambahkan pos pemeriksaan cache tanpa memenuhi jumlah minimum token, permintaan inferensi Anda masih berhasil tetapi pos pemeriksaan tidak ditambahkan ke cache.

Cache memiliki Time To Live (TTL) lima menit, yang disetel ulang dengan setiap hit cache yang berhasil. Selama periode ini, konteks dalam cache dipertahankan. Jika tidak ada klik cache yang terjadi di dalam jendela TTL, cache Anda kedaluwarsa.

Jika cache Anda kedaluwarsa, Anda dapat menggunakan kembali konteks yang sebelumnya di-cache hingga saat itu sebagai pos pemeriksaan cache pertama dari cache baru.

Anda dapat menggunakan caching prompt kapan pun Anda mendapatkan inferensi model di Amazon Bedrock untuk model yang didukung. Prompt caching didukung oleh fitur Amazon Bedrock berikut:

Converse dan ConverseStream APIs: Anda dapat melakukan percakapan dengan model tempat Anda menentukan pos pemeriksaan cache di prompt Anda.
InvokeModel dan InvokeModelWithResponseStream APIs: Anda dapat mengirimkan permintaan prompt tunggal di mana Anda mengaktifkan caching prompt dan menentukan pos pemeriksaan cache Anda.
Agen Batuan Dasar Amazon: Saat Anda membuat atau memperbarui agen, Anda dapat memilih untuk mengaktifkan atau menonaktifkan caching prompt. Amazon Bedrock secara otomatis menangani caching prompt dan perilaku pos pemeriksaan untuk Anda.

Ini APIs memberi Anda fleksibilitas dan kontrol terperinci atas cache prompt. Anda dapat mengatur setiap pos pemeriksaan cache individu dalam permintaan Anda. Anda dapat menambahkan ke cache dengan membuat lebih banyak pos pemeriksaan cache, hingga jumlah maksimum pos pemeriksaan cache yang diizinkan untuk model tertentu. Untuk informasi selengkapnya, lihat Model, wilayah, dan batas yang didukung.

Untuk menggunakan caching cepat dengan fitur lain seperti Amazon Bedrock Agents, Anda cukup mengaktifkan bidang caching prompt saat membuat atau memperbarui agen Anda. Saat Anda mengaktifkan caching prompt, perilaku caching dan pos pemeriksaan cache ditangani secara otomatis untuk Anda oleh Amazon Bedrock.

Model, wilayah, dan batas yang didukung

Tabel berikut mencantumkan yang didukung Wilayah AWS, token minimum, jumlah maksimum pos pemeriksaan cache, dan bidang yang memungkinkan pos pemeriksaan cache untuk setiap model yang didukung.

Nama model	ID Model	Wilayah yang mendukung caching cepat	Jumlah minimum token per pos pemeriksaan cache	Jumlah maksimum pos pemeriksaan cache	Bidang di mana Anda dapat menambahkan pos pemeriksaan cache
Amazon Nova Mikro v1	Amazon. nova-micro-v1:0	AS Timur (Virginia Utara) AS Barat (Oregon)	1	1	`system`
Amazon Nova Lite v1	Amazon. nova-lite-v1:0	AS Timur (Virginia Utara) AS Barat (Oregon)	1	1	`system`
Amazon Nova Pro v1	Amazon. nova-pro-v1:0	AS Timur (Virginia Utara) AS Barat (Oregon)	1	1	`system`
Claude 3.5 Haiku	anthropic.claude-3-5-haiku-20241022-v 1:0	Inferensi reguler: AS Barat (Oregon) Inferensi lintas wilayah: AS Timur (Virginia Utara) AS Barat (Oregon)	2,048	4	`system`, `messages`, dan `tools`
Claude 3.5 Soneta v2	anthropic.claude-3-5-sonnet-20241022-v 2:0	Inferensi reguler: AS Barat (Oregon) Inferensi lintas wilayah: AS Timur (Virginia Utara) AS Barat (Oregon)	1,024	4	`system`, `messages`, dan `tools`

Memulai

Bagian berikut menunjukkan gambaran singkat tentang cara menggunakan fitur caching prompt untuk setiap metode berinteraksi dengan model melalui Amazon Bedrock.

Converse API menyediakan opsi lanjutan dan fleksibel untuk menerapkan caching cepat dalam percakapan multi-putaran. Untuk informasi selengkapnya tentang persyaratan prompt untuk setiap model, lihat bagian sebelumnya. Model, wilayah, dan batas yang didukung

Permintaan contoh

Contoh berikut menunjukkan pos pemeriksaan cache yang disetel di messagessystem,, atau tools bidang permintaan ke Converse API. Anda dapat menempatkan pos pemeriksaan di salah satu lokasi ini untuk permintaan tertentu. Misalnya, jika mengirim permintaan ke model Claude 3.5 Sonnet v2, Anda dapat menempatkan dua pos pemeriksaan cache, satu pos pemeriksaan cachemessages, dan satu disystem. tools Untuk informasi lebih rinci dan contoh penataan dan pengiriman Converse Permintaan API, lihatLakukan percakapan dengan Converse Operasi API.

messages checkpoints

Dalam contoh ini, image bidang pertama memberikan gambar ke model, dan text bidang kedua meminta model untuk menganalisis gambar. Selama jumlah token sebelum content objek cachePoint dalam memenuhi jumlah token minimum untuk model, pos pemeriksaan cache dibuat.


...
"messages": [
   {
        "role": "user",
        "content": [
            {
                "image": {
                    "bytes": "asfb14tscve..."
                }
            },
            {
                "text": "What's is in this image?"
            },
            {
                "cachePoint": {
                    "type": "default"
                }
            }
      ]
  }
]
...

system checkpoints

Dalam contoh ini, Anda memberikan prompt sistem Anda di text lapangan. Setelah itu, Anda dapat menambahkan cachePoint bidang untuk cache prompt sistem.


...
  "system": [ 
    {
        "text": "You are an app that creates play lists for a radio station that plays rock and pop music. Only return song names and the artist. "
    },
    {
        "cachePoint": {
            "type": "default"
        }
    }
  ],
...

tools checkpoints

Dalam contoh ini, Anda memberikan definisi alat Anda di toolSpec lapangan. (Atau, Anda dapat memanggil alat yang telah Anda tentukan sebelumnya. Untuk informasi lebih lanjut, lihatPanggil alat dengan Converse API.) Setelah itu, Anda dapat menambahkan cachePoint bidang untuk cache alat.


...
toolConfig={
    "tools": [
        {
            "toolSpec": {
                "name": "top_song",
                "description": "Get the most popular song played on a radio station.",
                "inputSchema": {
                    "json": {
                        "type": "object",
                        "properties": {
                            "sign": {
                                "type": "string",
                                "description": "The call sign for the radio station for which you want the most popular song. Example calls signs are WZPZ and WKRP."
                            }
                        },
                        "required": [
                            "sign"
                        ]
                    }
                }
            }
        },
        {
                "cachePoint": {
                    "type": "default"
                }
        }
    ]
}
...

Respon model dari Converse API mencakup dua bidang baru yang khusus untuk prompt caching. CacheWriteInputTokensNilai CacheReadInputTokens dan memberi tahu Anda berapa banyak token yang dibaca dari cache dan berapa banyak token yang ditulis ke cache karena permintaan Anda sebelumnya. Ini adalah nilai yang dikenakan biaya oleh Amazon Bedrock, dengan tarif yang lebih rendah dari biaya inferensi model penuh.

Converse API

Permintaan contoh

messages checkpoints


...
"messages": [
   {
        "role": "user",
        "content": [
            {
                "image": {
                    "bytes": "asfb14tscve..."
                }
            },
            {
                "text": "What's is in this image?"
            },
            {
                "cachePoint": {
                    "type": "default"
                }
            }
      ]
  }
]
...

system checkpoints

Dalam contoh ini, Anda memberikan prompt sistem Anda di text lapangan. Setelah itu, Anda dapat menambahkan cachePoint bidang untuk cache prompt sistem.


...
  "system": [ 
    {
        "text": "You are an app that creates play lists for a radio station that plays rock and pop music. Only return song names and the artist. "
    },
    {
        "cachePoint": {
            "type": "default"
        }
    }
  ],
...

tools checkpoints


...
toolConfig={
    "tools": [
        {
            "toolSpec": {
                "name": "top_song",
                "description": "Get the most popular song played on a radio station.",
                "inputSchema": {
                    "json": {
                        "type": "object",
                        "properties": {
                            "sign": {
                                "type": "string",
                                "description": "The call sign for the radio station for which you want the most popular song. Example calls signs are WZPZ and WKRP."
                            }
                        },
                        "required": [
                            "sign"
                        ]
                    }
                }
            }
        },
        {
                "cachePoint": {
                    "type": "default"
                }
        }
    ]
}
...

anchor anchor anchor


...
"messages": [
   {
        "role": "user",
        "content": [
            {
                "image": {
                    "bytes": "asfb14tscve..."
                }
            },
            {
                "text": "What's is in this image?"
            },
            {
                "cachePoint": {
                    "type": "default"
                }
            }
      ]
  }
]
...

Caching prompt diaktifkan secara default saat Anda memanggil InvokeModelAPI. Anda dapat mengatur pos pemeriksaan cache di titik mana pun di badan permintaan Anda, mirip dengan contoh sebelumnya untuk Converse API.

Contoh berikut menunjukkan bagaimana menyusun badan InvokeModel permintaan Anda untuk Anthropic Claude 3.5 Sonnet model v2. Perhatikan bahwa format dan bidang yang tepat dari isi InvokeModel permintaan dapat bervariasi tergantung pada model yang Anda pilih. Untuk melihat format dan konten badan permintaan dan respons untuk model yang berbeda, lihatParameter permintaan inferensi dan bidang respons untuk model pondasi.


body={
        "anthropic_version": "bedrock-2023-05-31",
        "system":"Reply concisely",
        "messages": [
            {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "Describe the best way to learn programming."
                },
                {
                    "type": "text",
                    "text": "Add additional context here for the prompt that meets the minimum token requirement for your chosen model.",
                    "cache_control": {
                        "type": "ephemeral"
                    }
                }
            ]
            }
        ],
        "max_tokens": 2048,
        "temperature": 0.5,
        "top_p": 0.8,
        "stop_sequences": [
            "stop"
        ],
        "top_k": 250
}

Untuk informasi selengkapnya tentang mengirim InvokeModel permintaan, lihatKirim satu prompt dengan InvokeModel.

InvokeModel API


body={
        "anthropic_version": "bedrock-2023-05-31",
        "system":"Reply concisely",
        "messages": [
            {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "Describe the best way to learn programming."
                },
                {
                    "type": "text",
                    "text": "Add additional context here for the prompt that meets the minimum token requirement for your chosen model.",
                    "cache_control": {
                        "type": "ephemeral"
                    }
                }
            ]
            }
        ],
        "max_tokens": 2048,
        "temperature": 0.5,
        "top_p": 0.8,
        "stop_sequences": [
            "stop"
        ],
        "top_k": 250
}

Untuk informasi selengkapnya tentang mengirim InvokeModel permintaan, lihatKirim satu prompt dengan InvokeModel.

Di taman bermain obrolan di konsol Amazon Bedrock, Anda dapat mengaktifkan opsi caching prompt, dan Amazon Bedrock secara otomatis membuat pos pemeriksaan cache untuk Anda.

Ikuti instruksi Hasilkan tanggapan di konsol menggunakan taman bermain untuk memulai dengan meminta di taman bermain Amazon Bedrock. Untuk model yang didukung, caching prompt secara otomatis dihidupkan di taman bermain. Namun, jika tidak, lakukan hal berikut untuk mengaktifkan caching prompt:

Di panel sisi kiri, buka menu Konfigurasi.
Aktifkan sakelar Prompt caching.
Jalankan petunjuk Anda.

Setelah input gabungan dan respons model Anda mencapai jumlah token minimum yang diperlukan untuk pos pemeriksaan (yang bervariasi menurut model), Amazon Bedrock secara otomatis membuat pos pemeriksaan cache pertama untuk Anda. Saat Anda terus mengobrol, setiap jangkauan berikutnya dari jumlah minimum token menciptakan pos pemeriksaan baru, hingga jumlah maksimum pos pemeriksaan yang diizinkan untuk model tersebut. Anda dapat melihat pos pemeriksaan cache Anda kapan saja dengan memilih Lihat pos pemeriksaan cache di sebelah sakelar caching Prompt, seperti yang ditunjukkan pada gambar berikut.

UI beralih untuk caching cepat di taman bermain teks Amazon Bedrock.

Anda dapat melihat berapa banyak token yang dibaca dan ditulis ke cache karena setiap interaksi dengan model dengan melihat metrik Caching pop-up ( ) di respons taman bermain.

Kotak metrik cache yang menunjukkan jumlah token yang dibaca dan ditulis ke cache.

Jika Anda mematikan sakelar caching prompt saat berada di tengah percakapan, Anda dapat terus mengobrol dengan model.

Taman bermain

Di taman bermain obrolan di konsol Amazon Bedrock, Anda dapat mengaktifkan opsi caching prompt, dan Amazon Bedrock secara otomatis membuat pos pemeriksaan cache untuk Anda.

Di panel sisi kiri, buka menu Konfigurasi.
Aktifkan sakelar Prompt caching.
Jalankan petunjuk Anda.

Anda dapat melihat berapa banyak token yang dibaca dan ditulis ke cache karena setiap interaksi dengan model dengan melihat metrik Caching pop-up ( ) di respons taman bermain.

Jika Anda mematikan sakelar caching prompt saat berada di tengah percakapan, Anda dapat terus mengobrol dengan model.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Gunakan alat penggunaan komputer untuk menyelesaikan respons model

Memproses beberapa prompt dengan inferensi batch

Di halaman ini

Pilih preferensi cookie Anda

Sesuaikan preferensi cookie

Penting

Kinerja

Fungsional

Iklan

Tidak dapat menyimpan preferensi cookie

Caching cepat untuk inferensi model yang lebih cepat

catatan

Cara kerjanya

Model, wilayah, dan batas yang didukung

Memulai

Converse API

InvokeModel API

Taman bermain

Di halaman ini

Related resources

Apakah halaman ini membantu Anda?

Related resources

Topik berikutnya:

Topik sebelumnya:

Perlu bantuan?

UI beralih untuk caching cepat di taman bermain teks Amazon Bedrock.

Kotak metrik cache yang menunjukkan jumlah token yang dibaca dan ditulis ke cache.