Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Puoi usare Amazon Comprehend per rilevare le entità PII nei documenti di testo in inglese o spagnolo. Un'entità PII è un tipo specifico di informazioni di identificazione personale (PII). Utilizza il rilevamento delle informazioni PII per individuare le entità PII o oscurare le entità PII nel testo.
Argomenti
Individua le entità PII
Per individuare le entità PII nel testo, è possibile analizzare rapidamente un singolo documento utilizzando l'analisi in tempo reale. È inoltre possibile avviare un processo batch asincrono su una raccolta di documenti.
Puoi utilizzare la console o l'API per l'analisi in tempo reale di un singolo documento. Il testo di input può includere fino a 100 kilobyte di caratteri con codifica UTF-8.
Ad esempio, puoi inviare il seguente testo di input per individuare le entità PII:
Salve Paulo Santos. L'ultimo estratto conto relativo al conto della tua carta di credito 1111-0000-1111-0000 è stato inviato per posta a 123 Any Street, Seattle, WA 98109.
L'output include le informazioni che «Paul Santos» ha il tipo, «1111-0000-1111-0000" ha il tipo e «123 Any StreetNAME
, Seattle, WA 98109" ha il tipo. CREDIT_DEBIT_NUMBER
ADDRESS
Amazon Comprehend restituisce un elenco di entità PII rilevate, con le seguenti informazioni per ciascuna entità PII:
-
Un punteggio che stima la probabilità che l'intervallo di testo rilevato sia il tipo di entità rilevato.
-
Il tipo di entità PII.
-
La posizione dell'entità PII nel documento, specificata come offset di caratteri per l'inizio e la fine dell'entità.
Ad esempio, il testo di input menzionato in precedenza produce la seguente risposta:
{
"Entities": [
{
"Score": 0.9999669790267944,
"Type": "NAME",
"BeginOffset": 6,
"EndOffset": 18
},
{
"Score": 0.8905550241470337,
"Type": "CREDIT_DEBIT_NUMBER",
"BeginOffset": 69,
"EndOffset": 88
},
{
"Score": 0.9999889731407166,
"Type": "ADDRESS",
"BeginOffset": 103,
"EndOffset": 138
}
]
}
Redigi le entità PII
Per oscurare le entità PII nel testo, puoi utilizzare la console o l'API per avviare un processo batch asincrono. Amazon Comprehend restituisce una copia del testo di input con redazioni per ogni entità PII.
Ad esempio, puoi inviare il seguente testo di input per oscurare le entità PII:
Buongiorno Paulo Santos. L'ultimo estratto conto relativo al conto della tua carta di credito 1111-0000-1111-0000 è stato inviato per posta a 123 Any Street, Seattle, WA 98109.
Il file di output include il testo seguente:
Salve ***** ******. L'ultimo estratto conto relativo al conto della tua carta di credito ***************** è stato inviato per posta a *** ********* ******** *****.
Tipi di entità universali PII
Alcuni tipi di entità PII sono universali (non specifici per i singoli paesi), come gli indirizzi e-mail e i numeri di carte di credito. Amazon Comprehend rileva i seguenti tipi di entità PII universali:
- ADDRESS
-
Un indirizzo fisico, ad esempio «100 Main Street, Anytown, USA» o «Suite #12, Building 123". Un indirizzo può includere informazioni come la via, l'edificio, l'ubicazione, la città, lo stato, il paese, la contea, il codice postale, il distretto e il quartiere.
- AGE
-
L'età di un individuo, inclusa la quantità e l'unità di tempo. Ad esempio, nella frase «Ho 40 anni», Amazon Comprehend riconosce «40 anni» come età.
- AWS_ACCESS_CHIAVE
-
Un identificatore univoco associato a una chiave di accesso segreta; si utilizzano l'ID della chiave di accesso e la chiave di accesso segreta per firmare le richieste programmatiche AWS in modo crittografico.
- AWS_SECRET_CHIAVE
-
Un identificatore univoco associato a una chiave di accesso. L'ID della chiave di accesso e la chiave di accesso segreta vengono utilizzati per firmare crittograficamente AWS le richieste programmatiche.
- CREDIT_DEBIT_CVV
-
Un codice di verifica della carta a tre cifre (CVV) presente sulle carte di credito e debito VISA e Discover. MasterCard Per le carte di credito o di debito American Express, il CVV è un codice numerico a quattro cifre.
- CREDIT_DEBIT_EXPIRY
-
Data di scadenza della carta di credito o della carta di debito. Questo numero è in genere composto da quattro cifre ed è spesso formattato come. month/year or MM/YY Amazon Comprehend riconosce date di scadenza come 21/01/2021, 01/2021 e gennaio 2021.
- NUMERO_CREDIT_DEBIT_
-
Numeri di carta di credito o di debito. La lunghezza di questi numeri può variare da 13 a 16 cifre. Tuttavia, Amazon Comprehend riconosce i numeri delle carte di credito o di debito anche quando sono presenti solo le ultime quattro cifre.
- DATA_ORA
-
Una data può includere un anno, un mese, un giorno, un giorno della settimana o un'ora del giorno. Ad esempio, Amazon Comprehend riconosce come date «19 gennaio 2020" o «11:00». Amazon Comprehend riconoscerà date parziali, intervalli di date e intervalli di date. Riconoscerà anche decenni, come «gli anni '90".
- DRIVER_ID
-
Il numero assegnato alla patente di guida, che è un documento ufficiale che consente a una persona di guidare uno o più veicoli motorizzati su una strada pubblica. Il numero della patente di guida è composto da caratteri alfanumerici.
-
Un indirizzo e-mail, ad esempio marymajor@email.com.
- NUMERO_CONTO_BANCARIO INTERNAZIONALE
-
Un numero di conto bancario internazionale ha formati specifici in ogni paese. Vedi www.iban.com/structure
. - IP_ADDRESS
-
Un IPv4 indirizzo, ad esempio 198.51.100.0.
- TARGA_LICENZA
-
La targa di un veicolo viene emessa dallo stato o dal paese in cui il veicolo è immatricolato. Il formato per i veicoli passeggeri è in genere da cinque a otto cifre, composto da lettere maiuscole e numeri. Il formato varia a seconda dell'ubicazione dello stato o del paese di emissione.
- MAC_ADDRESS
-
Un indirizzo MAC (Media Access Control) è un identificatore univoco assegnato a un controller di interfaccia di rete (NIC).
- NAME
-
Il nome di una persona. Questo tipo di entità non include titoli come Dr., Mr., Mrs. o Miss. Amazon Comprehend non applica questo tipo di entità a nomi che fanno parte di organizzazioni o indirizzi. Ad esempio, Amazon Comprehend riconosce la «John Doe Organization» come organizzazione e riconosce «Jane Doe Street» come indirizzo.
- PASSWORD
-
Una stringa alfanumerica utilizzata come password, ad esempio «*very20special #pass *».
- PHONE
-
Un numero di telefono. Questo tipo di entità include anche numeri di fax e cercapersone.
- PERNO
-
Un numero di identificazione personale (PIN) a quattro cifre con cui puoi accedere al tuo conto bancario.
- CODICE SWIFT
-
Un codice SWIFT è un formato standard di Bank Identifier Code (BIC) utilizzato per specificare una particolare banca o filiale. Le banche utilizzano questi codici per i trasferimenti di denaro, come i bonifici internazionali.
I codici SWIFT sono composti da otto o 11 caratteri. I codici a 11 cifre si riferiscono a filiali specifiche, mentre i codici a otto cifre (o codici a 11 cifre che terminano con «XXX») si riferiscono alla sede centrale o principale.
- URL
-
Un indirizzo Web, ad esempio www.example.com.
- USERNAME
-
Un nome utente che identifica un account, ad esempio un nome di accesso, uno screen name, un soprannome o un handle.
- NUMERO_IDENTIFICAZIONE_VEICOLO
-
Un numero di identificazione del veicolo (VIN) identifica in modo univoco un veicolo. Il contenuto e il formato del VIN sono definiti nella specifica ISO 3779. Ogni paese ha codici e formati specifici per VINs.
Tipi di entità PII specifici per paese
Alcuni tipi di entità PII sono specifici del paese, come i numeri di passaporto e altri numeri di identità emessi dal governo. Amazon Comprehend rileva i seguenti tipi di entità PII specifiche del paese:
- CA_HEALTH_NUMBER
-
Un Canadian Health Service Number è un identificatore univoco di 10 cifre, necessario per consentire alle persone di accedere alle prestazioni sanitarie.
- CA_SOCIAL_INSURANCE_NUMBER
-
Il Canadian Social Insurance Number (SIN) è un identificativo univoco a nove cifre, necessario per consentire alle persone di accedere ai programmi e ai benefici governativi.
Il SIN è formattato come tre gruppi di tre cifre, ad esempio 123-456-789. Un SIN può essere convalidato tramite un semplice processo con cifre di controllo chiamato algoritmo di Luhn.
- IN_AADHAAR
-
Un Aadhaar indiano è un numero di identificazione univoco di 12 cifre rilasciato dal governo indiano ai residenti dell'India. Il formato Aadhaar presenta uno spazio o un trattino dopo la quarta e l'ottava cifra.
- IN_REGA
-
Un numero dell'Indian National Rural Employment Guarantee Act (NREGA) è composto da due lettere seguite da 14 numeri.
- NUMERO_CONTO_PERMANENTE
-
Un numero di conto permanente indiano è un numero alfanumerico univoco di 10 cifre emesso dal Dipartimento delle imposte sul reddito.
- IN_VOTER_NUMBER
-
Un ID elettorale indiano è composto da tre lettere seguite da sette numeri.
- UK_NATIONAL_HEALTH_SERVICE_NUMBER
-
Il National Health Service Number del Regno Unito è un numero di 10-17 cifre, ad esempio 485 777 3456. Il sistema attuale formatta il numero a 10 cifre con spazi dopo la terza e la sesta cifra. L'ultima cifra è un checksum che rileva gli errori.
Il formato numerico a 17 cifre presenta degli spazi dopo la decima e la tredicesima cifra.
- UK_NATIONAL_INSURANCE_NUMBER
-
Il National Insurance Number (NINO) del Regno Unito fornisce alle persone l'accesso alle prestazioni della National Insurance (previdenza sociale). Viene anche utilizzato per alcuni scopi nel sistema fiscale del Regno Unito.
Il numero è composto da nove cifre e inizia con due lettere, seguite da sei numeri e una lettera. Un NINO può essere formattato con uno spazio o un trattino dopo le due lettere e dopo la seconda, la quarta e la sesta cifra.
- UK_UNIQUE_TAXPAYER_REFERENCE_NUMBER
-
L'UTR (Unique Taxpayer Reference) del Regno Unito è un numero di 10 cifre che identifica un contribuente o un'azienda.
- NUMERO_CONTO_BANCARIO
-
Un numero di conto bancario statunitense, che in genere è composto da 10 a 12 cifre. Amazon Comprehend riconosce anche i numeri di conto bancario quando sono presenti solo le ultime quattro cifre.
- BANK_ROUTING
-
Numero di routing del conto bancario statunitense. Si tratta in genere di nove cifre, ma Amazon Comprehend riconosce anche i numeri di routing quando sono presenti solo le ultime quattro cifre.
- NUMERO_PASSAPORTO
-
Un numero di passaporto statunitense. I numeri dei passaporti vanno da sei a nove caratteri alfanumerici.
- US_NUMERO_INDIVIDUALE_IDENTIFICAZIONE_FISCALE
-
Un numero ITIN (Individual Taxpayer Identification Number) statunitense è un numero di nove cifre che inizia con «9" e contiene un «7" o «8" come quarta cifra. Un ITIN può essere formattato con uno spazio o un trattino dopo la terza e la quarta cifra.
- SSN
-
Un numero di previdenza sociale degli Stati Uniti (SSN) è un numero di nove cifre rilasciato ai cittadini statunitensi, ai residenti permanenti e ai residenti che lavorano temporaneamente. Amazon Comprehend riconosce anche i numeri di previdenza sociale quando sono presenti solo le ultime quattro cifre.