Creazione di un identificatore di dati personalizzato - Amazon Macie

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Creazione di un identificatore di dati personalizzato

Un identificatore di dati personalizzato è un insieme di criteri che definisci per rilevare dati sensibili negli oggetti Amazon Simple Storage Service (Amazon S3). Quando crei un identificatore di dati personalizzato, specifichi un'espressione regolare (regex) che definisce uno schema di testo da abbinare in un oggetto S3. Puoi anche specificare sequenze di caratteri e una regola di prossimità che perfezionano i risultati. Le sequenze di caratteri possono essere: parole chiave, che sono parole o frasi che devono trovarsi in prossimità di testo che corrisponde all'espressione regolare, oppure ignorare le parole, che sono parole o frasi da escludere dai risultati. Utilizzando identificatori di dati personalizzati, puoi integrare gli identificatori di dati gestiti forniti da Amazon Macie e rilevare dati sensibili che riflettono scenari particolari, proprietà intellettuale o dati proprietari della tua organizzazione.

Ad esempio, molte aziende hanno una sintassi specifica per i dipendenti. IDs Una di queste sintassi potrebbe essere: una lettera maiuscola che indica se un dipendente è un dipendente a tempo pieno (F) o part-time (P), seguita da un trattino (—), seguita da una sequenza di otto cifre che identifica il dipendente. Alcuni esempi sono: F—12345678 per un dipendente a tempo pieno e P—87654321 per un dipendente a tempo parziale. Per rilevare i dipendenti IDs che utilizzano questa sintassi, è possibile creare un identificatore di dati personalizzato che specifichi la seguente espressione regolare:. [A-Z]-\d{8} Per affinare l'analisi ed evitare falsi positivi, puoi anche configurare l'identificatore per utilizzare parole chiave (employeeandemployee ID) e una distanza di corrispondenza massima di 20 caratteri. In base a questi criteri, i risultati includono il testo che corrisponde all'espressione regolare se il testo si trova dopo la parola chiave employee o employee ID e tutto il testo si trova entro 20 caratteri da una di tali parole chiave.

Per una dimostrazione di come le parole chiave possono aiutarti a trovare dati sensibili ed evitare falsi positivi, guarda il seguente video:

Oltre ai criteri di rilevamento, puoi facoltativamente specificare impostazioni di gravità personalizzate per i risultati prodotti da un identificatore di dati personalizzato. La severità può essere basata sul numero di occorrenze di testo che corrispondono ai criteri di rilevamento dell'identificatore. Se non specifichi queste impostazioni, Macie assegna automaticamente la severità Media a tutti i risultati prodotti dall'identificatore. La severità non cambia in base al numero di occorrenze di testo che corrispondono ai criteri di rilevamento dell'identificatore.

Per informazioni dettagliate su queste e altre impostazioni, consulta. Opzioni di configurazione per identificatori di dati personalizzati

Per creare un identificatore di dati personalizzato

Puoi creare un identificatore di dati personalizzato utilizzando la console Amazon Macie o l'API Amazon Macie.

Console

Segui questi passaggi per creare un identificatore di dati personalizzato utilizzando la console Amazon Macie.

Per creare un identificatore di dati personalizzato
  1. Apri la console Amazon Macie all'indirizzo. https://console.aws.amazon.com/macie/

  2. Nel pannello di navigazione, in Impostazioni, scegli Identificatori di dati personalizzati.

  3. Scegli Create (Crea) .

  4. In Nome, inserisci un nome per l'identificatore di dati personalizzato. Il nome può contenere fino a un massimo di 128 caratteri.

  5. Per Descrizione, inserisci facoltativamente una breve descrizione dell'identificatore di dati personalizzato. La descrizione può contenere fino a 512 caratteri.

    Nota

    Evita di includere dati sensibili nel nome o nella descrizione di un identificatore di dati personalizzato. Altri utenti del tuo account potrebbero essere in grado di accedere al nome o alla descrizione, a seconda delle azioni che possono eseguire in Macie.

  6. Per Espressione regolare, inserisci l'espressione regolare (regex) che definisce lo schema di testo da abbinare. L'espressione regolare può contenere fino a 512 caratteri.

    Macie supporta un sottoinsieme della sintassi del pattern fornita dalla libreria Perl Compatible Regular Expressions (PCRE). Per ulteriori dettagli e suggerimenti, consultate Criteri di rilevamento per identificatori di dati personalizzati.

  7. Per Parole chiave, inserisci facoltativamente fino a 50 sequenze di caratteri (separate da virgole) per definire un testo specifico che deve essere in prossimità del testo che corrisponde allo schema regex.

    Macie include un'occorrenza nei risultati solo se il testo corrisponde al modello regex e il testo si trova entro la distanza di corrispondenza massima di una di queste parole chiave. Ogni parola chiave può contenere da 3 a 90 caratteri UTF-8. Le parole chiave non distinguono tra maiuscole e minuscole.

  8. Per Ignora parole, inserisci facoltativamente fino a 10 sequenze di caratteri (separate da virgole) che definiscono un testo specifico da escludere dai risultati.

    Macie esclude un'occorrenza dai risultati se il testo corrisponde al modello regex ma contiene una di queste parole da ignorare. Ogni parola da ignorare può contenere da 4 a 90 caratteri UTF-8. Le parole da ignorare distinguono tra maiuscole e minuscole.

  9. Per Distanza massima di corrispondenza, inserisci facoltativamente il numero massimo di caratteri che possono esistere tra la fine di una parola chiave e la fine del testo che corrisponde al modello regex.

    Macie include un'occorrenza nei risultati solo se il testo corrisponde al modello regex e il testo si trova entro questa distanza da una parola chiave completa. La distanza può essere compresa tra 1 e 300 caratteri. La distanza predefinita è di 50 caratteri.

  10. Per Severità, scegli come determinare la gravità dei dati sensibili rilevati dall'identificatore di dati personalizzato:

    • Per assegnare automaticamente la severità media a tutti i risultati, scegli Usa la severità media per un numero qualsiasi di corrispondenze (impostazione predefinita). Con questa opzione, Macie assegna automaticamente la gravità Media a un risultato se l'oggetto S3 interessato contiene una o più occorrenze di testo che corrispondono ai criteri di rilevamento.

    • Per assegnare la gravità in base alle soglie di occorrenze specificate, scegliete Usa impostazioni personalizzate per determinare la gravità. Utilizza quindi le opzioni Soglia di occorrenze e Livello di gravità per specificare il numero minimo di corrispondenze che devono esistere in un oggetto S3 per produrre un risultato con una gravità selezionata.

      È possibile specificare fino a tre soglie di occorrenza, una per ogni livello di gravità supportato da Macie: Bassa (meno grave), Media o Alta (più grave). Se ne specifichi più di una, le soglie devono essere in ordine crescente per gravità, passando da Basso ad Alto. Se un oggetto S3 contiene un numero di occorrenze inferiore alla soglia più bassa, Macie non crea un risultato.

  11. (Facoltativo) Per Tag, scegli Aggiungi tag, quindi inserisci fino a 50 tag da assegnare all'identificatore di dati personalizzato.

    Un tag è un'etichetta che definisci e assegni a determinati tipi di risorse. AWS Ogni tag è composto da una chiave di tag obbligatoria e da un valore di tag opzionale. I tag possono aiutarti a identificare, classificare e gestire le risorse in diversi modi, ad esempio per scopo, proprietario, ambiente o altri criteri. Per ulteriori informazioni, consulta Etichettare le risorse di Macie.

  12. (Facoltativo) Per Evaluate, inserite fino a 1.000 caratteri nella casella Dati di esempio, quindi scegliete Test per verificare i criteri di rilevamento. Macie valuta i dati di esempio e riporta il numero di occorrenze di testo che corrispondono ai criteri. Puoi ripetere questo passaggio tutte le volte che vuoi per rifinire e ottimizzare i criteri.

    Nota

    Ti consigliamo vivamente di testare e perfezionare i criteri di rilevamento con dati di esempio. Poiché gli identificatori di dati personalizzati vengono utilizzati dai processi di rilevamento di dati sensibili, non è possibile modificare un identificatore di dati personalizzato dopo averlo creato. Questo aiuta a garantire una cronologia immutabile delle scoperte e delle scoperte di dati sensibili.

  13. Al termine, scegli Submit (Invia).

Macie verifica le impostazioni e verifica che sia in grado di compilare l'espressione regolare. Se c'è un problema con un'impostazione o con l'espressione regolare, Macie visualizza un errore che descrive il problema. Dopo aver risolto eventuali problemi, puoi salvare l'identificatore di dati personalizzato.

API

Per creare un identificatore di dati personalizzato a livello di codice, utilizza il CreateCustomDataIdentifierfunzionamento dell'API Amazon Macie. Oppure, se utilizzi il AWS Command Line Interface (AWS CLI), esegui il comando. create-custom-data-identifier

Nota

Prima di creare un identificatore di dati personalizzato, ti consigliamo vivamente di testarne e perfezionarne i criteri di rilevamento con dati di esempio. Poiché gli identificatori di dati personalizzati vengono utilizzati dai processi di rilevamento di dati sensibili, non è possibile modificare un identificatore di dati personalizzato dopo averlo creato. Questo aiuta a garantire una cronologia immutabile delle scoperte e delle scoperte di dati sensibili.

Per testare i criteri a livello di codice, puoi utilizzare il TestCustomDataIdentifierfunzionamento dell'API Amazon Macie. Questa operazione fornisce un ambiente per la valutazione di dati di esempio con criteri di rilevamento. Se si utilizza il AWS CLI, è possibile eseguire il test-custom-data-identifiercomando per testare i criteri.

Quando sei pronto per creare l'identificatore di dati personalizzato, utilizza i seguenti parametri per definirne i criteri di rilevamento:

  • regex— Specificate l'espressione regolare (regex) che definisce il modello di testo da abbinare. L'espressione regolare può contenere fino a 512 caratteri.

    Macie supporta un sottoinsieme della sintassi del pattern fornita dalla libreria Perl Compatible Regular Expressions (PCRE). Per ulteriori dettagli e suggerimenti, consultate Criteri di rilevamento per identificatori di dati personalizzati.

  • keywords— Specificate facoltativamente sequenze da 1 a 50 caratteri (parole chiave) che devono trovarsi in prossimità del testo che corrisponde allo schema regex.

    Macie include un'occorrenza nei risultati solo se il testo corrisponde allo schema regex e il testo si trova entro la distanza di corrispondenza massima di una di queste parole chiave. Ogni parola chiave può contenere da 3 a 90 caratteri UTF-8. Le parole chiave non distinguono tra maiuscole e minuscole.

  • maximumMatchDistance— Specificate facoltativamente il numero massimo di caratteri che possono esistere tra la fine di una parola chiave e la fine del testo che corrisponde allo schema regex. Se si utilizza il AWS CLI, utilizzare il maximum-match-distance parametro per specificare questo valore.

    Macie include un'occorrenza nei risultati solo se il testo corrisponde allo schema regex e il testo si trova entro questa distanza da una parola chiave completa. La distanza può essere compresa tra 1 e 300 caratteri. La distanza predefinita è di 50 caratteri.

  • ignoreWords— Specificate facoltativamente sequenze da 1 a 10 caratteri (ignorate le parole) da escludere dai risultati. Se utilizzate il AWS CLI, utilizzate il ignore-words parametro per specificare queste sequenze di caratteri.

    Macie esclude un'occorrenza dai risultati se il testo corrisponde al modello regex, ma contiene una di queste parole da ignorare. Ogni parola da ignorare può contenere da 4 a 90 caratteri UTF-8. Le parole da ignorare distinguono tra maiuscole e minuscole.

Per specificare la gravità dei dati sensibili rilevati dall'identificatore di dati personalizzato, utilizza il severityLevels parametro o, se utilizzi il, il parametro: AWS CLIseverity-levels

  • Per assegnare automaticamente la MEDIUM gravità a tutti i risultati, ometti questo parametro. Macie utilizza quindi l'impostazione predefinita. Per impostazione predefinita, Macie assegna la MEDIUM gravità a un risultato se l'oggetto S3 interessato contiene una o più occorrenze di testo che corrispondono ai criteri di rilevamento.

  • Per assegnare la gravità in base alle soglie di occorrenze specificate, specifica il numero minimo di corrispondenze che devono esistere in un oggetto S3 per produrre un risultato con una gravità specificata.

    È possibile specificare fino a tre soglie di occorrenza, una per ogni livello di gravità supportato da Macie: LOW (meno grave) o (più grave). MEDIUM HIGH Se ne specifichi più di una, le soglie devono essere in ordine crescente per gravità, passando da a. LOW HIGH Se un oggetto S3 contiene un numero di occorrenze inferiore alla soglia più bassa, Macie non crea un risultato.

Utilizza parametri aggiuntivi per specificare un nome e altre impostazioni, come i tag, per l'identificatore di dati personalizzato. Evita di includere dati sensibili in queste impostazioni. Altri utenti del tuo account potrebbero essere in grado di accedere a questi valori, a seconda delle azioni che possono eseguire in Macie.

Quando invii la richiesta, Macie verifica le impostazioni e verifica che sia in grado di compilare l'espressione regolare. Se c'è un problema con un'impostazione o con l'espressione regolare, la richiesta fallisce e Macie restituisce un messaggio che descrive il problema. Se la richiesta ha esito positivo, riceverai un output simile al seguente:

{ "customDataIdentifierId": "393950aa-82ea-4bdc-8f7b-e5be3example" }

Dove customDataIdentifierId specifica l'identificatore univoco (ID) per l'identificatore di dati personalizzato che è stato creato.

Per recuperare e rivedere successivamente le impostazioni per l'identificatore di dati personalizzato, utilizza l'GetCustomDataIdentifieroperazione o, se utilizzi il, esegui il AWS CLI comando. get-custom-data-identifier Per il id parametro, specifica l'ID dell'identificatore di dati personalizzato.

Gli esempi seguenti mostrano come utilizzare per AWS CLI creare un identificatore di dati personalizzato. Gli esempi creano un identificatore di dati personalizzato progettato per rilevare i dipendenti IDs che utilizzano una sintassi specifica e si trovano in prossimità di una parola chiave specificata. Gli esempi definiscono anche impostazioni di gravità personalizzate per i risultati prodotti dall'identificatore.

Questo esempio è formattato per Linux, macOS o Unix e utilizza il carattere di continuazione di barra rovesciata (\) per migliorare la leggibilità.

$ aws macie2 create-custom-data-identifier \ --name "EmployeeIDs" \ --regex "[A-Z]-\d{8}" \ --keywords '["employee","employee ID"]' \ --maximum-match-distance 20 \ --severity-levels '[{"occurrencesThreshold":1,"severity":"LOW"},{"occurrencesThreshold":50,"severity":"MEDIUM"},{"occurrencesThreshold":100,"severity":"HIGH"}]' \ --description "Detects employee IDs in proximity of a keyword." \ --tags '{"Stack":"Production"}'

Questo esempio è formattato per Microsoft Windows e utilizza il carattere di continuazione di riga (^) per migliorare la leggibilità.

C:\> aws macie2 create-custom-data-identifier ^ --name "EmployeeIDs" ^ --regex "[A-Z]-\d{8}" ^ --keywords "[\"employee\",\"employee ID\"]" ^ --maximum-match-distance 20 ^ --severity-levels "[{\"occurrencesThreshold\":1,\"severity\":\"LOW\"},{\"occurrencesThreshold\":50,\"severity\":\"MEDIUM\"},{\"occurrencesThreshold\":100,\"severity\":\"HIGH\"}]" ^ --description "Detects employee IDs in proximity of a keyword." ^ --tags={\"Stack\":\"Production\"}

Dove:

  • EmployeeIDsè il nome dell'identificatore di dati personalizzato.

  • [A-Z]-\d{8}è l'espressione regolare per il modello di testo a cui corrispondere.

  • employeee employee ID sono parole chiave che devono trovarsi in prossimità del testo che corrisponde al modello regex.

  • 20è il numero massimo di caratteri che possono esistere tra la fine di una parola chiave e la fine del testo che corrisponde allo schema regex.

  • descriptionspecifica una breve descrizione dell'identificatore di dati personalizzato.

  • severity-levelsdefinisce soglie di occorrenze personalizzate per la gravità dei risultati prodotti dall'identificatore di dati personalizzato: LOW per 1-49 occorrenze, per 50-99 occorrenze e MEDIUM per 100 o più occorrenze. HIGH

  • Stackè la chiave del tag da assegnare all'identificatore di dati personalizzato. Productionè il valore del tag per la chiave di tag specificata.

Dopo aver creato l'identificatore di dati personalizzato, puoi creare e configurare processi di rilevamento di dati sensibili per utilizzarlo o aggiungerlo alle impostazioni per l'individuazione automatica dei dati sensibili.