Bloquez les mots et les conversations dangereux à l'aide de filtres de contenu - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Bloquez les mots et les conversations dangereux à l'aide de filtres de contenu

Amazon Bedrock Guardrails prend en charge les filtres de contenu pour aider à détecter et à filtrer les entrées utilisateur nuisibles et les sorties générées par des modèles. Les filtres de contenu sont pris en charge dans les catégories suivantes :

Haine

  • Contenu du texte : décrit les instructions de saisie et modélise les réponses qui discriminent, critiquent, insultent, dénoncent ou déshumanisent une personne ou un groupe sur la base d'une identité (telle que la race, l'origine ethnique, le sexe, la religion, l'orientation sexuelle, les capacités et l'origine nationale).

  • Contenu de l'image (en avant-première) — Décrit les demandes de saisie et les réponses modèles qui incluent du contenu graphique et visuel réel présentant certains symboles de groupes haineux, des symboles haineux et des images associées à diverses organisations promouvant la discrimination, le racisme et l'intolérance.

Insultes

  • Contenu textuel — Décrit les invites de saisie et modélise les réponses qui incluent un langage dégradant, humiliant, moqueur, insultant ou dénigrant. Ce type de langage est également qualifié d’intimidation.

  • Contenu de l'image (en aperçu) — Décrit les instructions de saisie et les réponses modèles qui incluent diverses formes de gestes grossiers, irrespectueux ou offensants destinés à exprimer du mépris, de la colère ou de la désapprobation.

Sexuelle

  • Contenu du texte : décrit les instructions de saisie et modélise les réponses qui indiquent l'intérêt, l'activité ou l'excitation sexuels en utilisant des références directes ou indirectes à des parties du corps, à des traits physiques ou au sexe.

  • Contenu de l'image (en aperçu) : décrit les invites de saisie et modélise les réponses qui indiquent des parties intimes du corps ou une activité sexuelle. Cette catégorie comprend également les dessins animés, les dessins animés, les dessins, les croquis et autres contenus illustrés sur des thèmes sexuels.

Violence

  • Contenu textuel : décrit les instructions de saisie et les réponses modèles qui incluent la glorification ou les menaces d'infliger une douleur physique, des blessures ou des blessures à une personne, à un groupe ou à un objet.

  • Contenu de l'image (en avant-première) — Décrit les instructions de saisie et les réponses modèles, notamment les pratiques d'automutilation, les agressions physiques violentes et les représentations de personnes ou d'animaux se blessant, souvent accompagnées de sang ou de blessures corporelles importantes.

Inconduite

  • Contenu textuel uniquement : décrit les invites de saisie et les réponses modèles qui visent à obtenir ou à fournir des informations sur la participation à une activité criminelle, ou sur le fait de blesser, de frauder ou de tirer parti d'une personne, d'un groupe ou d'une institution.

Attaque rapide

  • Contenu textuel uniquement ; s'applique uniquement aux invites avec balisage de saisie — Décrit les instructions utilisateur destinées à contourner les fonctionnalités de sécurité et de modération d'un modèle de base afin de générer du contenu préjudiciable (également appelé jailbreak), et à ignorer et à annuler les instructions spécifiées par le développeur (ce que l'on appelle injection rapide). Nécessite l'utilisation d'un balisage d'entrée afin d'appliquer une attaque rapide. Attaques rapidesla détection nécessite l'utilisation de balises d'entrée.