Création d'un identifiant de données personnalisé - Amazon Macie

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Création d'un identifiant de données personnalisé

Un identifiant de données personnalisé est un ensemble de critères que vous définissez pour détecter les données sensibles dans les objets Amazon Simple Storage Service (Amazon S3). Lorsque vous créez un identifiant de données personnalisé, vous spécifiez une expression régulière (regex) qui définit un modèle de texte à associer à un objet S3. Vous pouvez également définir des séquences de caractères et une règle de proximité pour affiner les résultats. Les séquences de caractères peuvent être : des mots clés, qui sont des mots ou des phrases qui doivent se trouver à proximité du texte correspondant à l'expression régulière, ou des mots ignorés, qui sont des mots ou des phrases à exclure des résultats. En utilisant des identifiants de données personnalisés, vous pouvez compléter les identifiants de données gérés fournis par Amazon Macie et détecter les données sensibles qui reflètent les scénarios, les propriétés intellectuelles ou les données propriétaires propres à votre entreprise.

Par exemple, de nombreuses entreprises ont une syntaxe spécifique pour les employés IDs. L'une de ces syntaxes pourrait être : une majuscule indiquant si un employé est un employé à temps plein (F) ou à temps partiel (P), suivie d'un trait d'union (—), suivie d'une séquence de huit chiffres identifiant l'employé. Les exemples sont : F—12345678 pour un employé à temps plein, et P—87654321 pour un employé à temps partiel. Pour détecter les employés IDs qui utilisent cette syntaxe, vous pouvez créer un identifiant de données personnalisé qui spécifie l'expression régulière suivante :[A-Z]-\d{8}. Pour affiner l'analyse et éviter les faux positifs, vous pouvez également configurer l'identifiant pour qu'il utilise des mots clés (employeeetemployee ID) et une distance de correspondance maximale de 20 caractères. Avec ces critères, les résultats incluent du texte correspondant à l'expression régulière si le texte apparaît après le mot clé employé ou ID d'employé et que tout le texte se trouve à moins de 20 caractères de l'un de ces mots clés.

Pour découvrir comment les mots clés peuvent vous aider à trouver des données sensibles et à éviter les faux positifs, regardez la vidéo suivante :

Outre les critères de détection, vous pouvez éventuellement définir des paramètres de gravité personnalisés pour les résultats produits par un identifiant de données personnalisé. La gravité peut être basée sur le nombre d'occurrences de texte correspondant aux critères de détection de l'identifiant. Si vous ne spécifiez pas ces paramètres, Macie attribue automatiquement le niveau de gravité moyen à tous les résultats produits par l'identifiant. La gravité ne change pas en fonction du nombre d'occurrences de texte correspondant aux critères de détection de l'identifiant.

Pour obtenir des informations détaillées sur ces paramètres et sur d'autres paramètres, consultezOptions de configuration pour les identificateurs de données personnalisés.

Pour créer un identificateur de données personnalisé

Vous pouvez créer un identifiant de données personnalisé à l'aide de la console Amazon Macie ou de l'API Amazon Macie.

Console

Suivez ces étapes pour créer un identifiant de données personnalisé à l'aide de la console Amazon Macie.

Pour créer un identificateur de données personnalisé
  1. Ouvrez la console Amazon Macie à l'adresse. https://console.aws.amazon.com/macie/

  2. Dans le volet de navigation, sous Settings (Paramètres), choisissez Custom data identifiers (Identificateurs de données personnalisés).

  3. Sélectionnez Create (Créer).

  4. Dans la zone Nom, saisissez un nom pour l'identificateur de données personnalisé. Le nom peut contenir jusqu'à 128 caractères.

  5. Dans Description, entrez éventuellement une brève description de l'identifiant de données personnalisé. La description peut contenir jusqu'à 512 caractères.

    Note

    Évitez d'inclure des données sensibles dans le nom ou la description d'un identifiant de données personnalisé. Les autres utilisateurs de votre compte peuvent accéder au nom ou à la description, en fonction des actions qu'ils sont autorisés à effectuer dans Macie.

  6. Pour Expression régulière, entrez l'expression régulière (regex) qui définit le modèle de texte à correspondre. L'expression régulière peut contenir jusqu'à 512 caractères.

    Macie prend en charge un sous-ensemble de la syntaxe des modèles fournie par la bibliothèque Perl Compatible Regular Expressions (PCRE). Pour plus de détails et de conseils, consultez la section Critères de détection pour les identificateurs de données personnalisés.

  7. Pour les mots clés, entrez éventuellement jusqu'à 50 séquences de caractères (séparées par des virgules) pour définir un texte spécifique qui doit se trouver à proximité du texte correspondant au modèle regex.

    Macie inclut une occurrence dans les résultats uniquement si le texte correspond au modèle regex et s'il se trouve dans la distance de correspondance maximale de l'un de ces mots clés. Chaque mot clé peut contenir de 3 à 90 caractères UTF-8. Les mots-clés ne sont pas sensibles à la casse.

  8. Pour Ignorer les mots, entrez éventuellement jusqu'à 10 séquences de caractères (séparées par des virgules) qui définissent le texte spécifique à exclure des résultats.

    Macie exclut une occurrence des résultats si le texte correspond au modèle regex mais qu'il contient l'un de ces mots ignorés. Chaque mot ignoré peut contenir de 4 à 90 caractères UTF-8. Les mots ignorés sont sensibles à la casse.

  9. Pour Distance de correspondance maximale, entrez éventuellement le nombre maximum de caractères pouvant exister entre la fin d'un mot clé et la fin du texte correspondant au modèle regex.

    Macie inclut une occurrence dans les résultats uniquement si le texte correspond au modèle regex et s'il se trouve à cette distance d'un mot clé complet. La distance peut être comprise entre 1 et 300 caractères. La distance par défaut est de 50 caractères.

  10. Dans le champ Sévérité, choisissez le mode de détermination de la gravité des résultats relatifs aux données sensibles produits par l'identifiant de données personnalisé :

    • Pour attribuer automatiquement la gravité moyenne à tous les résultats, choisissez Utiliser une gravité moyenne pour un nombre quelconque de correspondances (par défaut). Avec cette option, Macie attribue automatiquement le niveau de gravité moyen à un résultat si l'objet S3 concerné contient une ou plusieurs occurrences de texte correspondant aux critères de détection.

    • Pour attribuer la gravité en fonction des seuils d'occurrence que vous spécifiez, choisissez Utiliser des paramètres personnalisés pour déterminer la gravité. Utilisez ensuite les options Seuil d'occurrences et Niveau de gravité pour spécifier le nombre minimum de correspondances qui doivent exister dans un objet S3 pour produire un résultat avec une gravité sélectionnée.

      Vous pouvez spécifier jusqu'à trois seuils d'occurrence, un pour chaque niveau de gravité pris en charge par Macie : faible (le moins grave), moyen ou élevé (le plus sévère). Si vous en spécifiez plusieurs, les seuils doivent être classés par ordre croissant de gravité, en passant de faible à élevé. Si un objet S3 contient moins d'occurrences que le seuil le plus bas, Macie ne crée pas de résultat.

  11. (Facultatif) Pour les balises, choisissez Ajouter une balise, puis entrez jusqu'à 50 balises à attribuer à l'identifiant de données personnalisé.

    Un tag est un label que vous définissez et attribuez à certains types de AWS ressources. Chaque balise se compose d'une clé de balise obligatoire et d'une valeur de balise facultative. Les balises peuvent vous aider à identifier, à classer et à gérer les ressources de différentes manières, par exemple en fonction de leur objectif, de leur propriétaire, de leur environnement ou d'autres critères. Pour en savoir plus, consultez Marquer les ressources de Macie.

  12. (Facultatif) Pour Evaluer, entrez jusqu'à 1 000 caractères dans la zone Exemple de données, puis choisissez Test pour tester les critères de détection. Macie évalue les exemples de données et indique le nombre d'occurrences de texte correspondant aux critères. Vous pouvez répéter cette étape autant de fois que vous le souhaitez pour affiner et optimiser les critères.

    Note

    Nous vous recommandons vivement de tester et d'affiner les critères de détection à l'aide d'échantillons de données. Les identificateurs de données personnalisés étant utilisés par les tâches de découverte de données sensibles, vous ne pouvez pas modifier un identifiant de données personnalisé après l'avoir créé. Cela permet de garantir que vous disposez d'un historique immuable des découvertes de données sensibles et des résultats de découverte.

  13. Lorsque vous avez terminé, choisissez Submit (Soumettre).

Macie teste les paramètres et vérifie qu'il peut compiler l'expression régulière. En cas de problème avec un paramètre ou l'expression régulière, Macie affiche une erreur décrivant le problème. Une fois les problèmes résolus, vous pouvez enregistrer l'identifiant de données personnalisé.

API

Pour créer un identifiant de données personnalisé par programmation, utilisez l'CreateCustomDataIdentifierAPI Amazon Macie. Ou, si vous utilisez le AWS Command Line Interface (AWS CLI), exécutez la create-custom-data-identifiercommande.

Note

Avant de créer un identifiant de données personnalisé, nous vous recommandons vivement de tester et d'affiner ses critères de détection à l'aide d'échantillons de données. Les identificateurs de données personnalisés étant utilisés par les tâches de découverte de données sensibles, vous ne pouvez pas modifier un identifiant de données personnalisé après l'avoir créé. Cela permet de garantir que vous disposez d'un historique immuable des découvertes de données sensibles et des résultats de découverte.

Pour tester les critères par programmation, vous pouvez utiliser le TestCustomDataIdentifierfonctionnement de l'API Amazon Macie. Cette opération fournit un environnement permettant d'évaluer des échantillons de données à l'aide de critères de détection. Si vous utilisez le AWS CLI, vous pouvez exécuter la test-custom-data-identifiercommande pour tester les critères.

Lorsque vous êtes prêt à créer l'identifiant de données personnalisé, utilisez les paramètres suivants pour définir ses critères de détection :

  • regex— Spécifiez l'expression régulière (regex) qui définit le modèle de texte à correspondre. L'expression régulière peut contenir jusqu'à 512 caractères.

    Macie prend en charge un sous-ensemble de la syntaxe des modèles fournie par la bibliothèque Perl Compatible Regular Expressions (PCRE). Pour plus de détails et de conseils, consultez la section Critères de détection pour les identificateurs de données personnalisés.

  • keywords— Spécifiez éventuellement des séquences de 1 à 50 caractères (mots clés) qui doivent se trouver à proximité du texte correspondant au modèle d'expression régulière.

    Macie inclut une occurrence dans les résultats uniquement si le texte correspond au modèle regex et s'il se trouve dans la distance de correspondance maximale de l'un de ces mots clés. Chaque mot clé peut contenir de 3 à 90 caractères UTF-8. Les mots-clés ne sont pas sensibles à la casse.

  • maximumMatchDistance— Spécifiez éventuellement le nombre maximum de caractères pouvant exister entre la fin d'un mot clé et la fin du texte correspondant au modèle regex. Si vous utilisez le AWS CLI, utilisez le maximum-match-distance paramètre pour spécifier cette valeur.

    Macie inclut une occurrence dans les résultats uniquement si le texte correspond au modèle regex et s'il se trouve à cette distance d'un mot clé complet. La distance peut être comprise entre 1 et 300 caractères. La distance par défaut est de 50 caractères.

  • ignoreWords— Spécifiez éventuellement des séquences de 1 à 10 caractères (ignorez les mots) à exclure des résultats. Si vous utilisez le AWS CLI, utilisez le ignore-words paramètre pour spécifier ces séquences de caractères.

    Macie exclut une occurrence des résultats si le texte correspond au modèle regex mais qu'il contient l'un de ces mots ignorés. Chaque mot ignoré peut contenir de 4 à 90 caractères UTF-8. Les mots ignorés sont sensibles à la casse.

Pour spécifier la gravité des résultats relatifs aux données sensibles produits par l'identifiant de données personnalisé, utilisez le severityLevels paramètre ou, si vous utilisez le AWS CLI, le severity-levels paramètre :

  • Pour attribuer automatiquement la MEDIUM gravité à tous les résultats, omettez ce paramètre. Macie utilise ensuite le paramètre par défaut. Par défaut, Macie attribue la MEDIUM sévérité à un résultat si l'objet S3 concerné contient une ou plusieurs occurrences de texte correspondant aux critères de détection.

  • Pour attribuer la gravité en fonction des seuils d'occurrence que vous spécifiez, spécifiez le nombre minimum de correspondances qui doivent exister dans un objet S3 pour produire un résultat d'une gravité spécifiée.

    Vous pouvez spécifier jusqu'à trois seuils d'occurrence, un pour chaque niveau de gravité pris en charge par Macie : LOW (le moins grave) ou HIGH (le plus sévère). MEDIUM Si vous en spécifiez plusieurs, les seuils doivent être classés par ordre croissant de gravité, en allant de LOW àHIGH. Si un objet S3 contient moins d'occurrences que le seuil le plus bas, Macie ne crée pas de résultat.

Utilisez des paramètres supplémentaires pour spécifier un nom et d'autres paramètres, tels que des balises, pour l'identifiant de données personnalisé. Évitez d'inclure des données sensibles dans ces paramètres. Les autres utilisateurs de votre compte peuvent peut-être accéder à ces valeurs, en fonction des actions qu'ils sont autorisés à effectuer dans Macie.

Lorsque vous soumettez votre demande, Macie teste les paramètres et vérifie qu'il peut compiler l'expression régulière. En cas de problème avec un paramètre ou une expression régulière, la demande échoue et Macie renvoie un message décrivant le problème. Si la demande aboutit, vous recevez un résultat similaire à ce qui suit :

{ "customDataIdentifierId": "393950aa-82ea-4bdc-8f7b-e5be3example" }

Where customDataIdentifierId indique l'identifiant unique (ID) pour l'identifiant de données personnalisé créé.

Pour récupérer et vérifier ultérieurement les paramètres de l'identifiant de données personnalisé, utilisez l'GetCustomDataIdentifieropération ou, si vous utilisez le AWS CLI, exécutez la get-custom-data-identifiercommande. Pour le id paramètre, spécifiez l'ID de l'identifiant de données personnalisé.

Les exemples suivants montrent comment utiliser le AWS CLI pour créer un identifiant de données personnalisé. Les exemples créent un identifiant de données personnalisé conçu pour détecter les employés IDs qui utilisent une syntaxe spécifique et se trouvent à proximité d'un mot clé spécifié. Les exemples définissent également des paramètres de gravité personnalisés pour les résultats produits par l'identifiant.

Cet exemple est formaté pour Linux, macOS ou Unix et utilise le caractère de continuation de ligne barre oblique inverse (\) pour améliorer la lisibilité.

$ aws macie2 create-custom-data-identifier \ --name "EmployeeIDs" \ --regex "[A-Z]-\d{8}" \ --keywords '["employee","employee ID"]' \ --maximum-match-distance 20 \ --severity-levels '[{"occurrencesThreshold":1,"severity":"LOW"},{"occurrencesThreshold":50,"severity":"MEDIUM"},{"occurrencesThreshold":100,"severity":"HIGH"}]' \ --description "Detects employee IDs in proximity of a keyword." \ --tags '{"Stack":"Production"}'

Cet exemple est formaté pour Microsoft Windows et utilise le caractère de continuation de ligne caret (^) pour améliorer la lisibilité.

C:\> aws macie2 create-custom-data-identifier ^ --name "EmployeeIDs" ^ --regex "[A-Z]-\d{8}" ^ --keywords "[\"employee\",\"employee ID\"]" ^ --maximum-match-distance 20 ^ --severity-levels "[{\"occurrencesThreshold\":1,\"severity\":\"LOW\"},{\"occurrencesThreshold\":50,\"severity\":\"MEDIUM\"},{\"occurrencesThreshold\":100,\"severity\":\"HIGH\"}]" ^ --description "Detects employee IDs in proximity of a keyword." ^ --tags={\"Stack\":\"Production\"}

Où :

  • EmployeeIDsest le nom de l'identifiant de données personnalisé.

  • [A-Z]-\d{8}est l'expression régulière du modèle de texte à correspondre.

  • employeeet employee ID sont des mots clés qui doivent se trouver à proximité d'un texte correspondant au modèle regex.

  • 20est le nombre maximum de caractères pouvant exister entre la fin d'un mot clé et la fin d'un texte correspondant au modèle regex.

  • descriptionspécifie une brève description de l'identifiant de données personnalisé.

  • severity-levelsdéfinit des seuils d'occurrence personnalisés pour la gravité des constatations produites par l'identifiant de données personnalisé : LOW pour 1 à 49 occurrences, MEDIUM pour 50 à 99 occurrences et HIGH pour 100 occurrences ou plus.

  • Stackest la clé de balise de la balise à attribuer à l'identifiant de données personnalisé. Productionest la valeur de balise pour la clé de balise spécifiée.

Après avoir créé l'identifiant de données personnalisé, vous pouvez créer et configurer des tâches de découverte de données sensibles pour l'utiliser, ou l'ajouter à vos paramètres pour la découverte automatique de données sensibles.