Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Vous pouvez utiliser Amazon Comprehend pour détecter les entités PII dans des documents texte en anglais ou en espagnol. Une entité PII est un type spécifique d'informations personnelles identifiables (PII). Utilisez la détection des PII pour localiser les entités PII ou supprimer les entités PII dans le texte.
Rubriques
Localiser les entités PII
Pour localiser les entités PII dans votre texte, vous pouvez analyser rapidement un seul document à l'aide d'une analyse en temps réel. Vous pouvez également démarrer un traitement par lots asynchrone sur un ensemble de documents.
Vous pouvez utiliser la console ou l'API pour analyser en temps réel un seul document. Le texte saisi peut inclure jusqu'à 100 kilo-octets de caractères codés en UTF-8.
Par exemple, vous pouvez envoyer le texte d'entrée suivant pour localiser les entités PII :
Bonjour Paulo Santos. Le dernier relevé de votre compte de carte de crédit 1111-0000-1111-0000 a été envoyé par la poste au 123 Any Street, Seattle, WA 98109.
La sortie inclut les informations selon lesquelles « Paul Santos » a le typeNAME
, « 1111-0000-1111-0000 » a le type et « 123 Any StreetCREDIT_DEBIT_NUMBER
, Seattle, WA 98109 » a le type. ADDRESS
Amazon Comprehend renvoie une liste des entités PII détectées, avec les informations suivantes pour chaque entité PII :
-
Un score qui estime la probabilité que l'étendue de texte détectée soit le type d'entité détecté.
-
Type d'entité PII.
-
L'emplacement de l'entité PII dans le document, spécifié sous forme de décalages de caractères pour le début et la fin de l'entité.
Par exemple, le texte d'entrée mentionné précédemment produit la réponse suivante :
{
"Entities": [
{
"Score": 0.9999669790267944,
"Type": "NAME",
"BeginOffset": 6,
"EndOffset": 18
},
{
"Score": 0.8905550241470337,
"Type": "CREDIT_DEBIT_NUMBER",
"BeginOffset": 69,
"EndOffset": 88
},
{
"Score": 0.9999889731407166,
"Type": "ADDRESS",
"BeginOffset": 103,
"EndOffset": 138
}
]
}
Rédiger les entités PII
Pour supprimer les entités PII de votre texte, vous pouvez utiliser la console ou l'API pour démarrer un traitement par lots asynchrone. Amazon Comprehend renvoie une copie du texte saisi avec des modifications rédactionnelles pour chaque entité PII.
Par exemple, vous pouvez envoyer le texte d'entrée suivant pour supprimer les entités PII :
Bonjour Paulo Santos. Le dernier relevé de votre compte de carte de crédit 1111-0000-1111-0000 a été envoyé par la poste au 123 Any Street, Seattle, WA 98109.
Le fichier de sortie contient le texte suivant :
Bonjour ***** ******. Le dernier relevé de votre compte de carte de crédit ******************* a été envoyé à *** *** ******* ******** ** *****.
Types d'entités universelles PII
Certains types d'entités PII sont universels (ils ne sont pas spécifiques à chaque pays), tels que les adresses e-mail et les numéros de carte de crédit. Amazon Comprehend détecte les types d'entités PII universelles suivants :
- ADDRESS
-
Une adresse physique, telle que « 100 Main Street, Anytown, États-Unis » ou « Suite #12, Building 123 ». Une adresse peut inclure des informations telles que la rue, le bâtiment, l'emplacement, la ville, l'État, le pays, le comté, le code postal, le quartier et le quartier.
- AGE
-
L'âge d'une personne, y compris la quantité et l'unité de temps. Par exemple, dans la phrase « J'ai 40 ans », Amazon Comprehend reconnaît « 40 ans » comme un âge.
- AWS_ACCESS_CLÉ
-
Identifiant unique associé à une clé d'accès secrète ; vous utilisez l'ID de clé d'accès et la clé d'accès secrète pour signer des AWS demandes programmatiques de manière cryptographique.
- AWS_SECRET_CLÉ
-
Identifiant unique associé à une clé d'accès. Vous utilisez l'ID de clé d'accès et la clé d'accès secrète pour signer les AWS demandes programmatiques de manière cryptographique.
- CREDIT_DEBIT_CVV
-
Code de vérification de carte (CVV) à trois chiffres présent sur les cartes de crédit et de débit VISA et Discover. MasterCard Pour les cartes de crédit ou de débit American Express, le CVV est un code numérique à quatre chiffres.
- EXPIRATION_DEBIT_CRÉDIT/EXPIRATION
-
Date d’expiration d’une carte de crédit ou de débit. Ce numéro est généralement composé de quatre chiffres et est souvent formaté comme month/year or MM/YY suit. Amazon Comprehend reconnaît les dates d'expiration telles que le 21/01, le 01/2021 et le 1er janvier 2021.
- NUMÉRO DE CRÉDIT_DÉBIT
-
Numéro de carte de crédit ou de débit. La longueur de ces numéros peut varier de 13 à 16 chiffres. Toutefois, Amazon Comprehend reconnaît également les numéros de carte de crédit ou de débit lorsque seuls les quatre derniers chiffres sont présents.
- DATE_HEURE
-
Une date peut inclure une année, un mois, un jour, un jour de la semaine ou une heure de la journée. Par exemple, Amazon Comprehend reconnaît les dates « 19 janvier 2020 » ou « 11 h ». Amazon Comprehend reconnaîtra les dates partielles, les plages de dates et les intervalles de dates. Il reconnaîtra également des décennies, telles que « les années 1990 ».
- IDENTIFIANT_PILOTE
-
Le numéro attribué à un permis de conduire, qui est un document officiel permettant à une personne de conduire un ou plusieurs véhicules motorisés sur la voie publique. Le numéro de permis de conduire est composé de caractères alphanumériques.
-
Une adresse e-mail, telle que marymajor@email.com.
- NUMÉRO_COMPTE_BANCAIRE INTERNATIONAL
-
Un numéro de compte bancaire international a des formats spécifiques dans chaque pays. Consultez le site www.iban.com/structure
. - IP_ADDRESS
-
Une IPv4 adresse, telle que 198.51.100.0.
- PLAQUE D'IMMATRICULATION
-
La plaque d'immatriculation d'un véhicule est délivrée par l'État ou le pays où le véhicule est immatriculé. Le format des véhicules de tourisme est généralement composé de cinq à huit chiffres, composés de lettres majuscules et de chiffres. Le format varie en fonction de la localisation de l'État ou du pays émetteur.
- MAC_ADDRESS
-
Une adresse MAC (Media Access Control) est un identifiant unique attribué à un contrôleur d'interface réseau (NIC).
- NAME
-
Nom d’une personne. Ce type d'entité n'inclut pas les titres tels que Dr., Mr., Mrs., ou Miss. Amazon Comprehend n'applique pas ce type d'entité aux noms qui font partie d'organisations ou d'adresses. Par exemple, Amazon Comprehend reconnaît « John Doe Organization » comme une organisation, et reconnaît « Jane Doe Street » comme une adresse.
- PASSWORD
-
Chaîne alphanumérique utilisée comme mot de passe, telle que « *very20special #pass * ».
- PHONE
-
Numéro de téléphone. Ce type d’entité inclut également les numéros de télécopieur et de pager.
- BROCHE
-
Numéro d'identification personnel (PIN) à quatre chiffres avec lequel vous pouvez accéder à votre compte bancaire.
- CODE SWIFT_CODE
-
Un code SWIFT est un format standard de code d'identification bancaire (BIC) utilisé pour spécifier une banque ou une succursale en particulier. Les banques utilisent ces codes pour les transferts d'argent tels que les virements internationaux.
Les codes SWIFT sont composés de 8 ou 11 caractères. Les codes à 11 chiffres font référence à des succursales spécifiques, tandis que les codes à huit chiffres (ou les codes à 11 chiffres se terminant par « XXX ») font référence au siège social ou au bureau principal.
- URL
-
Une adresse Web, telle que www.example.com.
- USERNAME
-
Nom d'utilisateur identifiant un compte, tel qu'un nom de connexion, un pseudonyme, un surnom ou un pseudo.
- NUMÉRO_D'IDENTIFICATION_VÉHICULE
-
Un numéro d'identification du véhicule (VIN) identifie un véhicule de manière unique. Le contenu et le format du VIN sont définis dans la spécification ISO 3779. Chaque pays possède des codes et des formats spécifiques pour VINs.
Types d'entités PII spécifiques à chaque pays
Certains types d'entités PII sont spécifiques à un pays, tels que les numéros de passeport et autres numéros d'identification émis par le gouvernement. Amazon Comprehend détecte les types suivants d'entités PII spécifiques à un pays :
- CA_HEALTH_NUMBER
-
Un numéro de service de santé canadien est un identifiant unique à 10 chiffres, requis pour que les personnes aient accès aux prestations de santé.
- CA_SOCIAL_INSURANCE_NUMBER
-
Le numéro d'assurance sociale (SIN) canadien est un identifiant unique à neuf chiffres, requis pour que les personnes aient accès aux programmes et aux prestations du gouvernement.
Le SIN est formaté en trois groupes de trois chiffres, tels que 123-456-789. Un SIN peut être validé au moyen d'un simple processus à chiffres de contrôle appelé algorithme de Luhn
. - IN_AADHAAR
-
Un Aadhaar indien est un numéro d'identification unique à 12 chiffres délivré par le gouvernement indien aux résidents de l'Inde. Le format Aadhaar comporte un espace ou un trait d'union après le quatrième et le huitième chiffre.
- IN_NREGA
-
Un numéro de la Loi nationale indienne sur la garantie de l'emploi rural (NREGA) se compose de deux lettres suivies de 14 chiffres.
- IN_PERMANENT_ACCOUNT_NUMBER
-
Un numéro de compte permanent indien est un numéro alphanumérique unique à 10 chiffres émis par le service de l'impôt sur le revenu.
- IN_VOTER_NUMBER
-
Un identifiant d'électeur indien se compose de trois lettres suivies de sept chiffres.
- UK_NATIONAL_HEALTH_SERVICE_NUMBER
-
Un numéro du National Health Service du Royaume-Uni est un numéro de 10 à 17 chiffres, tel que le 485 777 3456. Le système actuel met en forme le numéro à 10 chiffres avec des espaces après les troisième et sixième chiffres. Le dernier chiffre est une somme de contrôle détectant les erreurs.
Le format numérique à 17 chiffres comporte des espaces après les 10e et 13e chiffres.
- UK_NATIONAL_INSURANCE_NUMBER
-
Un numéro d'assurance nationale britannique (NINO) permet aux particuliers d'accéder aux prestations de l'assurance nationale (sécurité sociale). Il est également utilisé à certaines fins dans le système fiscal britannique.
Le numéro est composé de neuf chiffres et commence par deux lettres, suivies de six chiffres et d'une lettre. Un NINO peut être formaté avec un espace ou un tiret après les deux lettres et après les deuxième, quatrième et sixième chiffres.
- UK_UNIQUE_TAXPAYER_REFERENCE_NUMBER
-
Une référence unique de contribuable britannique (UTR) est un numéro à 10 chiffres qui identifie un contribuable ou une entreprise.
- NUMÉRO_COMPTE_BANCAIRE
-
Un numéro de compte bancaire américain, généralement composé de 10 à 12 chiffres. Amazon Comprehend reconnaît également les numéros de compte bancaire lorsque seuls les quatre derniers chiffres sont présents.
- ROUTAGE BANCAIRE
-
Numéro d’acheminement du compte bancaire aux États-Unis. Ils comportent généralement neuf chiffres, mais Amazon Comprehend reconnaît également les numéros de routage lorsque seuls les quatre derniers chiffres sont présents.
- NUMÉRO_PASSEPORT
-
Un numéro de passeport américain. Les numéros de passeport comprennent de six à neuf caractères alphanumériques.
- NUMÉRO_IDENTIFICATION_FISCAL INDIVIDUEL AMÉRICAIN
-
Un numéro d'identification de contribuable individuel (ITIN) américain est un numéro à neuf chiffres commençant par un « 9 » et contenant un « 7 » ou un « 8 » comme quatrième chiffre. Un ITIN peut être formaté avec un espace ou un tiret après le troisième et le quatrième chiffre.
- SSN
-
Un numéro de sécurité sociale américain (SSN) est un numéro à neuf chiffres délivré aux citoyens américains, aux résidents permanents et aux résidents actifs temporaires. Amazon Comprehend reconnaît également les numéros de sécurité sociale lorsque seuls les quatre derniers chiffres sont présents.