Options de configuration pour les identificateurs de données personnalisés - Amazon Macie

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Options de configuration pour les identificateurs de données personnalisés

En utilisant des identifiants de données personnalisés, vous pouvez définir des critères personnalisés pour détecter les données sensibles dans les objets Amazon Simple Storage Service (Amazon S3). Vous pouvez compléter les identifiants de données gérés fournis par Amazon Macie et détecter les données sensibles qui reflètent les scénarios, la propriété intellectuelle ou les données propriétaires propres à votre entreprise.

Chaque identifiant de données personnalisé spécifie des critères de détection et, éventuellement, des paramètres de gravité pour les résultats produits par l'identifiant. Les critères de détection spécifient une expression régulière qui définit un modèle de texte à correspondre dans un objet S3. Les critères peuvent également spécifier des séquences de caractères et une règle de proximité qui affinent les résultats. Les paramètres de gravité spécifient le niveau de gravité à attribuer aux résultats. La gravité peut être basée sur le nombre d'occurrences de texte correspondant aux critères de détection de l'identifiant.

Critères de détection

Lorsque vous créez un identifiant de données personnalisé, vous spécifiez une expression régulière (regex) qui définit un modèle de texte correspondant. Vous pouvez également spécifier des séquences de caractères, telles que des mots et des phrases, ainsi qu'une règle de proximité qui affine les résultats. Les séquences de caractères peuvent être : des mots clés, qui sont des mots ou des phrases qui doivent se trouver à proximité du texte correspondant à l'expression régulière, ou des mots ignorés, qui sont des mots ou des phrases à exclure des résultats.

Pour l'expression régulière, Amazon Macie prend en charge un sous-ensemble de la syntaxe des modèles fournie par la bibliothèque Perl Compatible Regular Expressions (PCRE). Parmi les constructions fournies par la bibliothèque PCRE, Macie ne prend pas en charge les éléments de modèle suivants :

  • Références rétrospectives

  • Capture de groupes

  • Modèles conditionnels

  • Code intégré

  • Indicateurs de modèles globaux, tels que /i/m, et /x

  • Motifs récursifs

  • Assertions de largeur zéro rétrospectives et prospectives positives et négatives, telles que,, et ?= ?! ?<= ?<!

L'expression régulière peut contenir jusqu'à 512 caractères.

Pour créer un modèle d'expression régulière efficace pour un identifiant de données personnalisé, suivez les conseils et recommandations suivants :

  • Utilisez des ancres (^ou$) uniquement si vous vous attendez à ce que le motif apparaisse au début ou à la fin d'un fichier, et non au début ou à la fin d'une ligne.

  • Pour des raisons de performance, Macie limite la taille des groupes répétés délimités. Par exemple, \d{100,1000} ne compilera pas dans Macie. Pour utiliser approximativement cette fonctionnalité, vous pouvez utiliser une répétition ouverte telle que\d{100,}.

  • Pour rendre certaines parties d'un modèle insensibles aux majuscules et minuscules, vous pouvez utiliser la (?i) construction au lieu du /i drapeau.

  • Il n'est pas nécessaire d'optimiser les préfixes ou les alternances manuellement. Par exemple, le passage /hello|hi|hey/ à /h(?:ello|i|ey)/ n'améliorera pas les performances.

  • Pour des raisons de performance, Macie limite le nombre de jokers répétés. Par exemple, a*b*a* ne compilera pas dans Macie.

Pour se protéger contre les expressions mal formées ou de longue durée, Macie teste automatiquement les modèles de regex par rapport à un ensemble d'exemples de texte lorsque vous créez un identifiant de données personnalisé. En cas de problème avec l'expression régulière, Macie renvoie une erreur décrivant le problème.

Outre l'expression régulière, vous pouvez éventuellement spécifier des séquences de caractères et une règle de proximité pour affiner les résultats.

Mots clés

Il s'agit de séquences de caractères spécifiques qui doivent se trouver à proximité d'un texte correspondant au modèle regex. Les exigences de proximité varient en fonction du format de stockage ou du type de fichier d'un objet S3 :

  • Données colonnaires structurées : Macie inclut un résultat si le texte correspond au modèle regex et si un mot-clé se trouve dans le nom du champ ou de la colonne qui stocke le texte, ou si le texte est précédé d'un mot-clé dans le même champ ou la même valeur de cellule et dans les limites de la distance de correspondance maximale d'un mot clé dans le même champ ou la même valeur de cellule. C'est le cas pour les classeurs Microsoft Excel, les fichiers CSV et les fichiers TSV.

  • Données structurées basées sur des enregistrements : Macie inclut un résultat si le texte correspond au modèle regex et s'il se trouve dans la distance de correspondance maximale d'un mot-clé. Le mot-clé peut figurer dans le nom d'un élément du chemin d'accès au champ ou au tableau qui stocke le texte, ou il peut précéder et faire partie de la même valeur dans le champ ou le tableau qui stocke le texte. C'est le cas pour les conteneurs d'objets Apache Avro, les fichiers Apache Parquet, les fichiers JSON et les fichiers JSON Lines.

  • Données non structurées : Macie inclut un résultat si le texte correspond au modèle regex et s'il est précédé d'un mot clé et dans les limites de la distance de correspondance maximale d'un mot clé. C'est le cas pour les fichiers Adobe Portable Document Format, les documents Microsoft Word, les messages électroniques et les fichiers texte non binaires autres que les fichiers CSV, JSON, JSON Lines et TSV. Cela inclut toutes les données structurées, telles que les tables, contenues dans ces types de fichiers.

Vous pouvez spécifier jusqu'à 50 mots-clés. Chaque mot clé peut contenir de 3 à 90 caractères UTF-8. Les mots-clés ne sont pas sensibles à la casse.

Distance de match maximale

Il s'agit d'une règle de proximité basée sur les caractères pour les mots clés. Macie utilise ce paramètre pour déterminer si un mot-clé précède le texte correspondant au modèle regex. Le paramètre définit le nombre maximum de caractères pouvant exister entre la fin d'un mot-clé complet et la fin du texte correspondant au modèle regex. Macie inclut un résultat si le texte :

  • Correspond au modèle regex,

  • Survient après au moins un mot clé complet, et

  • Survient à la distance spécifiée du mot clé.

Dans le cas contraire, Macie exclut le texte des résultats.

Vous pouvez spécifier une distance de 1 à 300 caractères. La distance par défaut est de 50 caractères. Pour de meilleurs résultats, cette distance doit être supérieure au nombre minimum de caractères de texte que l'expression régulière est conçue pour détecter. Si seule une partie du texte se trouve dans la distance de correspondance maximale d'un mot clé, Macie ne l'inclut pas dans les résultats.

Ignorer les mots

Il s'agit de séquences de caractères spécifiques à exclure des résultats. Si le texte correspond au modèle regex mais qu'il contient un mot à ignorer, Macie ne l'inclut pas dans les résultats.

Vous pouvez spécifier jusqu'à 10 mots à ignorer. Chaque mot ignoré peut contenir de 4 à 90 caractères UTF-8. Les mots ignorés sont sensibles à la casse.

Note

Avant de créer un identifiant de données personnalisé, nous vous recommandons vivement de tester et d'affiner ses critères de détection à l'aide d'échantillons de données. Les identificateurs de données personnalisés étant utilisés par les tâches de découverte de données sensibles, vous ne pouvez pas modifier un identifiant de données personnalisé après l'avoir créé. Cela permet de garantir que vous disposez d'un historique immuable des découvertes relatives aux données sensibles et des résultats de découverte pour les audits ou enquêtes que vous effectuez sur la confidentialité et la protection des données.

Vous pouvez tester les critères de détection à l'aide de la console Amazon Macie ou de l'API Amazon Macie. Pour tester les critères à l'aide de la console, utilisez les options de la section Evaluer lors de la création de l'identifiant de données personnalisé. Pour tester les critères par programmation, utilisez le TestCustomDataIdentifierfonctionnement de l'API Amazon Macie. Si vous utilisez le AWS Command Line Interface, exécutez la test-custom-data-identifiercommande pour tester les critères.

Pour découvrir comment les mots clés peuvent vous aider à trouver des données sensibles et à éviter les faux positifs, regardez la vidéo suivante :

Paramètres de gravité des résultats

Lorsque vous créez un identifiant de données personnalisé, vous pouvez également spécifier des paramètres de gravité personnalisés pour les résultats de données sensibles produits par l'identifiant. Par défaut, Amazon Macie attribue le niveau de gravité moyen à tous les résultats produits par un identifiant de données personnalisé. Si un objet S3 contient au moins une occurrence de texte correspondant aux critères de détection, Macie attribue automatiquement le niveau de gravité moyen au résultat obtenu.

Avec les paramètres de gravité personnalisés, vous spécifiez la sévérité à attribuer en fonction du nombre d'occurrences de texte correspondant aux critères de détection. Vous pouvez définir des seuils d'occurrence pour trois niveaux de gravité maximum : faible (le moins grave), moyen et élevé (le plus grave). Un seuil d'occurrences est le nombre minimum de correspondances qui doivent exister dans un objet S3 pour produire un résultat ayant la gravité spécifiée. Si vous spécifiez plusieurs seuils, les seuils doivent être classés par ordre croissant de gravité, en passant de faible à élevé.

Par exemple, l'image suivante montre les paramètres de gravité qui spécifient trois seuils d'occurrence, un pour chaque niveau de gravité pris en charge par Macie.

Paramètres de gravité qui spécifient les seuils d'occurrence pour les niveaux de gravité faible, moyen et élevé.

Le tableau suivant indique la gravité des résultats produits par l'identifiant de données personnalisé.

Seuil d'occurrences Niveau de gravité Résultat
1 Faible Si un objet S3 contient 1 à 49 occurrences de texte correspondant aux critères de détection, le niveau de gravité du résultat est faible.
50 Moyen Si un objet S3 contient entre 50 et 99 occurrences de texte correspondant aux critères de détection, le niveau de gravité du résultat est moyen.
100 Élevé Si un objet S3 contient au moins 100 occurrences de texte correspondant aux critères de détection, le niveau de gravité du résultat est élevé.

Vous pouvez également utiliser les paramètres de gravité pour spécifier s'il faut créer un résultat. Si un objet S3 contient moins d'occurrences que le seuil d'occurrences le plus bas, Macie ne crée pas de résultat.