Impedir conteúdo prejudicial em modelos usando o Amazon Bedrock Guardrails - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Impedir conteúdo prejudicial em modelos usando o Amazon Bedrock Guardrails

O Amazon Bedrock Guardrails pode implementar proteções para seus aplicativos generativos de IA com base em seus casos de uso e políticas de IA responsáveis. É possível criar várias barreiras de proteção personalizadas para diferentes casos de uso e aplicá-las em vários modelos de base (FM), fornecendo uma experiência consistente aos usuários e padronizando os controles de segurança e de privacidade em aplicações de IA generativa. É possível usar barreiras de proteção com entradas de usuário e respostas do modelo baseadas em texto.

As barreiras de proteção podem ser usadas de várias maneiras para ajudar a proteger aplicações de IA generativa. Por exemplo:

  • Uma aplicação de chatbot pode usar barreiras de proteção para ajudar a filtrar entradas prejudiciais de usuários e respostas tóxicas de modelos.

  • Uma aplicação bancária pode usar barreiras de proteção para ajudar a bloquear consultas de usuários ou respostas de modelos associadas à busca ou ao fornecimento de consultoria em investimentos.

  • Um aplicativo de call center para resumir as transcrições de conversas entre usuários e agentes pode usar grades de proteção para redigir as informações de identificação pessoal dos usuários () para proteger a privacidade do usuário. PII

O Amazon Bedrock Guardrails oferece suporte às seguintes políticas:

  • Filtros de conteúdo: ajuste a intensidade dos filtros para ajudar a bloquear prompts de entrada ou respostas de modelo que tenham conteúdo prejudicial. Filtragem de texto com base na detecção de determinadas categorias predefinidas de conteúdo nocivo: ódio, insultos, sexo, violência, má conduta e ataque imediato.

  • Tópicos negados: defina um conjunto de tópicos que não são desejáveis no contexto da sua aplicação. O filtro ajudará a bloqueá-los se detectados em consultas do usuário ou nas respostas do modelo.

  • Filtros de palavras: configure filtros para ajudar a bloquear palavras, frases e palavrões indesejáveis. Essas palavras podem incluir termos ofensivos, nomes de concorrentes etc.

  • Filtros de informações confidenciais — configure filtros para ajudar a bloquear ou mascarar informações confidenciais, como informações de identificação pessoal (PII) ou expressões regulares personalizadas nas entradas do usuário e nas respostas do modelo. A filtragem ou mascaramento de texto é baseada na detecção de informações confidenciais, como SSN número, data de nascimento, endereço etc. Isso também permite configurar a detecção de padrões baseada em expressões regulares para identificadores.

  • Verificação de base contextual: ajude a detectar e filtrar alucinações nas respostas do modelo de acordo com uma fonte de base e a relevância para a consulta do usuário.

  • Filtro de conteúdo de imagem — ajuda a detectar e filtrar conteúdo de imagem impróprio ou tóxico. Os usuários podem definir filtros para categorias específicas e definir a intensidade do filtro.

Além das políticas acima, você também pode configurar as mensagens a serem retornadas ao usuário se uma entrada do usuário ou uma resposta do modelo violar as políticas definidas na barreira de proteção.

É possível criar várias versões de barreira de proteção para a sua barreira de proteção. Ao criar uma barreira de proteção, um rascunho de trabalho fica automaticamente disponível para modificação de forma iterativa. Experimente diferentes configurações e use a janela de teste integrada para ver se elas são adequadas para seu caso de uso. Se estiver o conjunto de configurações estiver adequado, você poderá criar uma versão da barreira de proteção e usá-la com modelos de base compatíveis.

As grades de proteção podem ser usadas diretamente FMs durante a API invocação da inferência, especificando a ID da grade de proteção e a versão. Os guarda-corpos também podem ser usados diretamente através do, ApplyGuardrail API sem invocar os modelos de fundação. Se uma barreira de proteção for usada, ela avaliará os prompts de entrada e as conclusões do FM em relação às políticas definidas.

Para aplicativos de recuperação de geração aumentada (RAG) ou conversacional, talvez seja necessário avaliar somente a entrada do usuário no prompt de entrada e descartar instruções do sistema, resultados de pesquisa, histórico de conversas ou alguns exemplos curtos. Para avaliar seletivamente uma seção do prompt de entrada, consulte Aplicar tags à entrada do usuário para filtrar conteúdo.

Importante

O Amazon Bedrock Guardrails oferece suporte para inglês, francês e espanhol. A avaliação de conteúdo textual em outros idiomas pode gerar resultados não confiáveis.