Opzioni di configurazione per identificatori di dati personalizzati - Amazon Macie

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Opzioni di configurazione per identificatori di dati personalizzati

Utilizzando identificatori di dati personalizzati, puoi definire criteri personalizzati per rilevare dati sensibili negli oggetti Amazon Simple Storage Service (Amazon S3). Puoi integrare gli identificatori di dati gestiti forniti da Amazon Macie e rilevare dati sensibili che riflettono scenari particolari, proprietà intellettuale o dati proprietari della tua organizzazione.

Ogni identificatore di dati personalizzato specifica i criteri di rilevamento e, facoltativamente, le impostazioni di gravità per i risultati prodotti dall'identificatore. I criteri di rilevamento specificano un'espressione regolare che definisce uno schema di testo da abbinare in un oggetto S3. I criteri possono anche specificare sequenze di caratteri e una regola di prossimità che perfeziona i risultati. Le impostazioni di severità specificano quale severità assegnare ai risultati. La severità può essere basata sul numero di occorrenze di testo che corrispondono ai criteri di rilevamento dell'identificatore.

Criteri di rilevamento

Quando si crea un identificatore di dati personalizzato, si specifica un'espressione regolare (regex) che definisce uno schema di testo da abbinare. Puoi anche specificare sequenze di caratteri, come parole e frasi, e una regola di prossimità che perfeziona i risultati. Le sequenze di caratteri possono essere: parole chiave, che sono parole o frasi che devono trovarsi in prossimità di testo che corrisponde all'espressione regolare, oppure ignorare le parole, che sono parole o frasi da escludere dai risultati.

Per l'espressione regolare, Amazon Macie supporta un sottoinsieme della sintassi del pattern fornita dalla libreria Perl Compatible Regular Expressions (). PCRE Tra i costrutti forniti dalla PCRE libreria, Macie non supporta i seguenti elementi del pattern:

  • Riferimenti all'indietro

  • Acquisizione di gruppi

  • Modelli condizionali

  • Codice incorporato

  • Bandiere con pattern globali, ad esempio /i/m, e /x

  • Schemi ricorsivi

  • Asserzioni a larghezza zero positive e negative e look-ahead, ad esempio,, e ?= ?! ?<= ?<!

L'espressione regolare può contenere fino a 512 caratteri.

Per creare un modello regex efficace per un identificatore di dati personalizzato, tieni presente i seguenti suggerimenti e raccomandazioni:

  • Utilizzate gli anchors (^or$) solo se vi aspettate che il pattern appaia all'inizio o alla fine di un file, non all'inizio o alla fine di una riga.

  • Per motivi di prestazioni, Macie limita la dimensione dei gruppi di ripetizioni limitati. Ad esempio, \d{100,1000} non verrà compilato in Macie. Per approssimare questa funzionalità, puoi usare una ripetizione aperta come. \d{100,}

  • Per fare in modo che alcune parti di un pattern non facciano distinzione tra maiuscole e minuscole, potete usare il (?i) costrutto anziché il flag. /i

  • Non è necessario ottimizzare manualmente i prefissi o le alternanze. Ad esempio, passare /hello|hi|hey/ a non /h(?:ello|i|ey)/ migliorerà le prestazioni.

  • Per motivi di prestazioni, Macie limita il numero di jolly ripetuti. Ad esempio, a*b*a* non verrà compilato in Macie.

Per proteggersi da espressioni malformate o di lunga durata, Macie testa automaticamente i modelli regex rispetto a una raccolta di testo di esempio quando crei un identificatore di dati personalizzato. Se c'è un problema con l'espressione regolare, Macie restituisce un errore che descrive il problema.

Oltre all'espressione regolare, puoi facoltativamente specificare sequenze di caratteri e una regola di prossimità per rifinire i risultati.

Parole chiave

Si tratta di sequenze di caratteri specifiche che devono trovarsi in prossimità del testo che corrisponde al modello regex. I requisiti di prossimità variano in base al formato di archiviazione o al tipo di file di un oggetto S3:

  • Dati strutturati e colonnari: Macie include un risultato se il testo corrisponde allo schema regex e una parola chiave è nel nome del campo o della colonna che memorizza il testo, oppure se il testo è preceduto da ed entro la distanza massima di corrispondenza di una parola chiave nello stesso campo o valore di cella. Questo è il caso delle cartelle di lavoro, dei file e CSV TSV dei file di Microsoft Excel.

  • Dati strutturati basati su record: Macie include un risultato se il testo corrisponde allo schema regex e se il testo si trova entro la distanza di corrispondenza massima di una parola chiave. La parola chiave può essere contenuta nel nome di un elemento nel percorso del campo o dell'array che memorizza il testo, oppure può precedere e far parte dello stesso valore nel campo o nell'array che memorizza il testo. Questo è il caso dei contenitori di oggetti Apache Avro, dei file Apache Parquet, dei file e dei JSON file Lines. JSON

  • Dati non strutturati: Macie include un risultato se il testo corrisponde allo schema regex e il testo è preceduto da e entro la distanza di corrispondenza massima di una parola chiave. Questo è il caso dei file Adobe Portable Document Format, dei documenti di Microsoft Word, dei messaggi di posta elettronica e dei file di testo non binari diversi da CSVJSON, JSON Lines e TSV file. Ciò include tutti i dati strutturati, come le tabelle, in questi tipi di file.

È possibile specificare fino a 50 parole chiave. Ogni parola chiave può contenere da 3 a 90 UTF -8 caratteri. Le parole chiave non distinguono tra maiuscole e minuscole.

Distanza massima di corrispondenza

Questa è una regola di prossimità basata su caratteri per le parole chiave. Macie usa questa impostazione per determinare se una parola chiave precede il testo che corrisponde allo schema regex. L'impostazione definisce il numero massimo di caratteri che possono esistere tra la fine di una parola chiave completa e la fine del testo che corrisponde allo schema regex. Macie include un risultato del testo:

  • Corrisponde al modello regex,

  • Si verifica dopo almeno una parola chiave completa e

  • Si verifica entro la distanza specificata dalla parola chiave.

Altrimenti, Macie esclude il testo dai risultati.

È possibile specificare una distanza di 1—300 caratteri. La distanza predefinita è di 50 caratteri. Per ottenere risultati ottimali, questa distanza deve essere maggiore del numero minimo di caratteri di testo che l'espressione regolare è progettata per rilevare. Se solo una parte del testo rientra nella distanza massima di corrispondenza di una parola chiave, Macie non la include nei risultati.

Ignora le parole

Si tratta di sequenze di caratteri specifiche da escludere dai risultati. Se il testo corrisponde allo schema regex ma contiene una parola da ignorare, Macie non la include nei risultati.

Puoi specificare fino a 10 parole da ignorare. Ogni parola da ignorare può contenere da 4 a 90 UTF -8 caratteri. Le parole da ignorare distinguono tra maiuscole e minuscole.

Nota

Ti consigliamo vivamente di testare e perfezionare i criteri di rilevamento prima di salvare un identificatore di dati personalizzato. Poiché gli identificatori di dati personalizzati vengono utilizzati dai processi di rilevamento di dati sensibili, non è possibile modificare un identificatore di dati personalizzato dopo averlo salvato. Ciò contribuisce a garantire una cronologia immutabile delle rilevazioni e dei risultati delle scoperte di dati sensibili per i controlli o le indagini sulla privacy e la protezione dei dati da te eseguiti.

Puoi testare i criteri di rilevamento utilizzando la console Amazon Macie o Amazon Macie. API Per testare i criteri utilizzando la console, utilizza le opzioni nella sezione Valuta durante la creazione dell'identificatore di dati personalizzato. Per testare i criteri a livello di codice, utilizza il TestCustomDataIdentifierfunzionamento di Amazon Macie. API

Per una dimostrazione di come le parole chiave possono aiutarti a trovare dati sensibili ed evitare falsi positivi, guarda il seguente video:

Impostazioni di gravità per i risultati

Quando crei un identificatore di dati personalizzato, puoi anche specificare impostazioni di gravità personalizzate per le rilevazioni di dati sensibili prodotte dall'identificatore. Per impostazione predefinita, Amazon Macie assegna la gravità Media a tutti i risultati prodotti da un identificatore di dati personalizzato. Se un oggetto S3 contiene almeno un'occorrenza di testo che corrisponde ai criteri di rilevamento, Macie assegna automaticamente la severità Media al risultato risultante.

Con le impostazioni di gravità personalizzate, si specifica quale severità assegnare in base al numero di occorrenze di testo che corrispondono ai criteri di rilevamento. È possibile definire soglie di occorrenza per un massimo di tre livelli di gravità: Basso (meno grave), Medio e Alto (più grave). Una soglia di occorrenza è il numero minimo di corrispondenze che devono esistere in un oggetto S3 per produrre un risultato con la gravità specificata. Se si specifica più di una soglia, le soglie devono essere in ordine crescente per gravità, passando da Bassa a Alta.

Ad esempio, l'immagine seguente mostra le impostazioni di gravità che specificano tre soglie di occorrenza, una per ogni livello di gravità supportato da Macie.

Impostazioni di severità che specificano le soglie di occorrenza per i livelli di severità basso, medio e alto.

La tabella seguente indica la gravità dei risultati prodotti dall'identificatore di dati personalizzato.

Soglia di occorrenze Livello di gravità Risultato
1 Bassa Se un oggetto S3 contiene da 1 a 49 occorrenze di testo che corrispondono ai criteri di rilevamento, la gravità del risultato risultante è Bassa.
50 Media Se un oggetto S3 contiene 50-99 occorrenze di testo che corrispondono ai criteri di rilevamento, la gravità del risultato risultante è Media.
100 Elevata Se un oggetto S3 contiene 100 o più occorrenze di testo che corrispondono ai criteri di rilevamento, la gravità del risultato risultante è Alta.

Puoi anche utilizzare le impostazioni di gravità per specificare se creare o meno un risultato. Se un oggetto S3 contiene un numero di occorrenze inferiore alla soglia di occorrenze più bassa, Macie non crea un risultato.