Pour créer un identifiant de données personnalisé par programmation, utilisez l'CreateCustomDataIdentifierAPI Amazon Macie. Ou, si vous utilisez le AWS Command Line Interface (AWS CLI), exécutez la create-custom-data-identifiercommande.
Avant de créer un identifiant de données personnalisé, nous vous recommandons vivement de tester et d'affiner ses critères de détection à l'aide d'échantillons de données. Les identificateurs de données personnalisés étant utilisés par les tâches de découverte de données sensibles, vous ne pouvez pas modifier un identifiant de données personnalisé après l'avoir créé. Cela permet de garantir que vous disposez d'un historique immuable des découvertes de données sensibles et des résultats de découverte.
Pour tester les critères par programmation, vous pouvez utiliser le TestCustomDataIdentifierfonctionnement de l'API Amazon Macie. Cette opération fournit un environnement permettant d'évaluer des échantillons de données à l'aide de critères de détection. Si vous utilisez le AWS CLI, vous pouvez exécuter la test-custom-data-identifiercommande pour tester les critères.
Lorsque vous êtes prêt à créer l'identifiant de données personnalisé, utilisez les paramètres suivants pour définir ses critères de détection :
-
regex
— Spécifiez l'expression régulière (regex) qui définit le modèle de texte à correspondre. L'expression régulière peut contenir jusqu'à 512 caractères.
Macie prend en charge un sous-ensemble de la syntaxe des modèles fournie par la bibliothèque Perl Compatible Regular Expressions (PCRE). Pour plus de détails et de conseils, consultez la section Critères de détection pour les identificateurs de données personnalisés.
-
keywords
— Spécifiez éventuellement des séquences de 1 à 50 caractères (mots clés) qui doivent se trouver à proximité du texte correspondant au modèle d'expression régulière.
Macie inclut une occurrence dans les résultats uniquement si le texte correspond au modèle regex et s'il se trouve dans la distance de correspondance maximale de l'un de ces mots clés. Chaque mot clé peut contenir de 3 à 90 caractères UTF-8. Les mots-clés ne sont pas sensibles à la casse.
-
maximumMatchDistance
— Spécifiez éventuellement le nombre maximum de caractères pouvant exister entre la fin d'un mot clé et la fin du texte correspondant au modèle regex. Si vous utilisez le AWS CLI, utilisez le maximum-match-distance
paramètre pour spécifier cette valeur.
Macie inclut une occurrence dans les résultats uniquement si le texte correspond au modèle regex et s'il se trouve à cette distance d'un mot clé complet. La distance peut être comprise entre 1 et 300 caractères. La distance par défaut est de 50 caractères.
-
ignoreWords
— Spécifiez éventuellement des séquences de 1 à 10 caractères (ignorez les mots) à exclure des résultats. Si vous utilisez le AWS CLI, utilisez le ignore-words
paramètre pour spécifier ces séquences de caractères.
Macie exclut une occurrence des résultats si le texte correspond au modèle regex mais qu'il contient l'un de ces mots ignorés. Chaque mot ignoré peut contenir de 4 à 90 caractères UTF-8. Les mots ignorés sont sensibles à la casse.
Pour spécifier la gravité des résultats relatifs aux données sensibles produits par l'identifiant de données personnalisé, utilisez le severityLevels
paramètre ou, si vous utilisez le AWS CLI, le severity-levels
paramètre :
-
Pour attribuer automatiquement la MEDIUM
gravité à tous les résultats, omettez ce paramètre. Macie utilise ensuite le paramètre par défaut. Par défaut, Macie attribue la MEDIUM
sévérité à un résultat si l'objet S3 concerné contient une ou plusieurs occurrences de texte correspondant aux critères de détection.
-
Pour attribuer la gravité en fonction des seuils d'occurrence que vous spécifiez, spécifiez le nombre minimum de correspondances qui doivent exister dans un objet S3 pour produire un résultat d'une gravité spécifiée.
Vous pouvez spécifier jusqu'à trois seuils d'occurrence, un pour chaque niveau de gravité pris en charge par Macie : LOW
(le moins grave) ou HIGH
(le plus sévère). MEDIUM
Si vous en spécifiez plusieurs, les seuils doivent être classés par ordre croissant de gravité, en allant de LOW
àHIGH
. Si un objet S3 contient moins d'occurrences que le seuil le plus bas, Macie ne crée pas de résultat.
Utilisez des paramètres supplémentaires pour spécifier un nom et d'autres paramètres, tels que des balises, pour l'identifiant de données personnalisé. Évitez d'inclure des données sensibles dans ces paramètres. Les autres utilisateurs de votre compte peuvent peut-être accéder à ces valeurs, en fonction des actions qu'ils sont autorisés à effectuer dans Macie.
Lorsque vous soumettez votre demande, Macie teste les paramètres et vérifie qu'il peut compiler l'expression régulière. En cas de problème avec un paramètre ou une expression régulière, la demande échoue et Macie renvoie un message décrivant le problème. Si la demande aboutit, vous recevez un résultat similaire à ce qui suit :
{
"customDataIdentifierId": "393950aa-82ea-4bdc-8f7b-e5be3example"
}
Where customDataIdentifierId
indique l'identifiant unique (ID) pour l'identifiant de données personnalisé créé.
Pour récupérer et vérifier ultérieurement les paramètres de l'identifiant de données personnalisé, utilisez l'GetCustomDataIdentifieropération ou, si vous utilisez le AWS CLI, exécutez la get-custom-data-identifiercommande. Pour le id
paramètre, spécifiez l'ID de l'identifiant de données personnalisé.
Les exemples suivants montrent comment utiliser le AWS CLI pour créer un identifiant de données personnalisé. Les exemples créent un identifiant de données personnalisé conçu pour détecter les employés IDs qui utilisent une syntaxe spécifique et se trouvent à proximité d'un mot clé spécifié. Les exemples définissent également des paramètres de gravité personnalisés pour les résultats produits par l'identifiant.
Cet exemple est formaté pour Linux, macOS ou Unix et utilise le caractère de continuation de ligne barre oblique inverse (\) pour améliorer la lisibilité.
$
aws macie2 create-custom-data-identifier \
--name "EmployeeIDs
" \
--regex "[A-Z]-\d{8}
" \
--keywords '["employee","employee ID"
]' \
--maximum-match-distance 20
\
--severity-levels '[{"occurrencesThreshold":1
,"severity":"LOW
"},{"occurrencesThreshold":50
,"severity":"MEDIUM
"},{"occurrencesThreshold":100
,"severity":"HIGH
"}]' \
--description "Detects employee IDs in proximity of a keyword.
" \
--tags '{"Stack
":"Production
"}'
Cet exemple est formaté pour Microsoft Windows et utilise le caractère de continuation de ligne caret (^) pour améliorer la lisibilité.
C:\>
aws macie2 create-custom-data-identifier ^
--name "EmployeeIDs
" ^
--regex "[A-Z]-\d{8}
" ^
--keywords "[\"employee
\",\"employee ID
\"]" ^
--maximum-match-distance 20
^
--severity-levels "[{\"occurrencesThreshold\":1
,\"severity\":\"LOW
\"},{\"occurrencesThreshold\":50
,\"severity\":\"MEDIUM
\"},{\"occurrencesThreshold\":100
,\"severity\":\"HIGH
\"}]" ^
--description "Detects employee IDs in proximity of a keyword.
" ^
--tags={\"Stack
\":\"Production
\"}
Où :
-
EmployeeIDs
est le nom de l'identifiant de données personnalisé.
-
[A-Z]-\d{8}
est l'expression régulière du modèle de texte à correspondre.
-
employee
et employee ID
sont des mots clés qui doivent se trouver à proximité d'un texte correspondant au modèle regex.
-
20
est le nombre maximum de caractères pouvant exister entre la fin d'un mot clé et la fin d'un texte correspondant au modèle regex.
-
description
spécifie une brève description de l'identifiant de données personnalisé.
-
severity-levels
définit des seuils d'occurrence personnalisés pour la gravité des constatations produites par l'identifiant de données personnalisé : LOW
pour 1 à 49 occurrences, MEDIUM
pour 50 à 99 occurrences et HIGH
pour 100 occurrences ou plus.
-
Stack
est la clé de balise de la balise à attribuer à l'identifiant de données personnalisé. Production
est la valeur de balise pour la clé de balise spécifiée.