Hentikan konten berbahaya dalam model menggunakan Amazon Bedrock Guardrails - Amazon Bedrock

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Hentikan konten berbahaya dalam model menggunakan Amazon Bedrock Guardrails

Amazon Bedrock Guardrails dapat menerapkan perlindungan untuk aplikasi AI generatif Anda berdasarkan kasus penggunaan dan kebijakan AI yang bertanggung jawab. Anda dapat membuat beberapa pagar pembatas yang disesuaikan dengan kasus penggunaan yang berbeda dan menerapkannya di beberapa model fondasi (FM), memberikan pengalaman pengguna yang konsisten dan menstandarisasi kontrol keamanan dan privasi di seluruh aplikasi AI generatif. Anda dapat menggunakan pagar pembatas dengan input pengguna berbasis teks dan respons model.

Pagar pembatas dapat digunakan dalam berbagai cara untuk membantu melindungi aplikasi AI generatif. Sebagai contoh:

  • Aplikasi chatbot dapat menggunakan pagar pembatas untuk membantu menyaring input pengguna yang berbahaya dan respons model beracun.

  • Aplikasi perbankan dapat menggunakan pagar pembatas untuk membantu memblokir pertanyaan pengguna atau respons model yang terkait dengan mencari atau memberikan saran investasi.

  • Aplikasi call center untuk meringkas transkrip percakapan antara pengguna dan agen dapat menggunakan pagar pembatas untuk menyunting informasi identitas pribadi pengguna () untuk melindungi privasi pengguna. PII

Amazon Bedrock Guardrails mendukung kebijakan berikut:

  • Filter konten — Sesuaikan kekuatan filter untuk membantu memblokir permintaan input atau respons model yang berisi konten berbahaya. Memfilter teks berdasarkan deteksi kategori konten berbahaya tertentu yang telah ditentukan sebelumnya - Benci, Penghinaan, Seksual, Kekerasan, Pelanggaran, dan Serangan Segera.

  • Topik yang ditolak — Tentukan serangkaian topik yang tidak diinginkan dalam konteks aplikasi Anda. Filter akan membantu memblokirnya jika terdeteksi dalam kueri pengguna atau respons model.

  • Filter kata — Konfigurasikan filter untuk membantu memblokir kata, frasa, dan kata-kata kotor yang tidak diinginkan. Kata-kata seperti itu dapat mencakup istilah ofensif, nama pesaing, dll.

  • Filter informasi sensitif — Konfigurasikan filter untuk membantu memblokir atau menutupi informasi sensitif, seperti informasi yang dapat diidentifikasi secara pribadi (PII), atau regex khusus dalam input pengguna dan respons model. Pemfilteran atau penyembunyian teks didasarkan pada deteksi informasi sensitif seperti SSN nomor, Tanggal Lahir, alamat, dll. Ini juga memungkinkan mengonfigurasi deteksi pola berbasis ekspresi reguler untuk pengidentifikasi.

  • Pemeriksaan grounding kontekstual — Membantu mendeteksi dan memfilter halusinasi dalam respons model berdasarkan landasan dalam sumber dan relevansi dengan kueri pengguna.

  • Filter konten gambar - Membantu mendeteksi dan memfilter konten gambar yang tidak pantas atau beracun. Pengguna dapat mengatur filter untuk kategori tertentu dan mengatur kekuatan filter.

Selain kebijakan di atas, Anda juga dapat mengonfigurasi pesan yang akan dikembalikan kepada pengguna jika input pengguna atau respons model melanggar kebijakan yang ditetapkan dalam pagar pembatas.

Anda dapat membuat beberapa versi pagar pembatas untuk pagar pembatas Anda. Saat Anda membuat pagar pembatas, draf kerja secara otomatis tersedia untuk Anda modifikasi secara iteratif. Bereksperimenlah dengan konfigurasi yang berbeda dan gunakan jendela pengujian bawaan untuk melihat apakah sesuai untuk kasus penggunaan Anda. Jika Anda puas dengan serangkaian konfigurasi, Anda dapat membuat versi pagar pembatas dan menggunakannya dengan model pondasi yang didukung.

Pagar pembatas dapat digunakan secara langsung FMs selama API pemanggilan inferensi dengan menentukan ID pagar pembatas dan versinya. Pagar pembatas juga dapat digunakan langsung melalui ApplyGuardrail API tanpa menggunakan model pondasi. Jika pagar pembatas digunakan, itu akan mengevaluasi petunjuk input dan penyelesaian FM terhadap kebijakan yang ditentukan.

Untuk pengambilan augmented generation (RAG) atau aplikasi percakapan, Anda mungkin perlu mengevaluasi hanya input pengguna dalam prompt input sambil membuang instruksi sistem, hasil pencarian, riwayat percakapan, atau beberapa contoh singkat. Untuk mengevaluasi secara selektif bagian dari prompt input, lihatTerapkan tag ke input pengguna untuk memfilter konten.

penting

Amazon Bedrock Guardrails mendukung bahasa Inggris, Prancis, dan Spanyol. Mengevaluasi konten teks dalam bahasa lain dapat menghasilkan hasil yang tidak dapat diandalkan.