Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
I log di flusso VPC raccolgono dati sul traffico IP in entrata e in uscita dal VPC in record di log, aggregano questi record in file di log e pubblicano questi ultimi nel bucket Amazon S3 a intervalli di cinque minuti. È possibile pubblicare più file e ogni file di log può contenere alcuni o tutti i record dei log di flusso per il traffico IP registrato nei cinque minuti precedenti.
In Amazon S3, il campo Last modified (Ultima modifica) per il file di log di flusso indica la data e l'ora in cui il file è stato caricato nel bucket Amazon S3. Questa è successiva al timestamp nel nome del file e differisce per il tempo impiegato per caricare il file nel bucket Amazon S3.
Formato dei file di log
Per i file di log, puoi specificare uno dei seguenti formati. Ciascun file viene compresso in un singolo file Gzip.
-
Text: Testo normale. Questo è il formato predefinito.
-
Parquet: Apache Parquet è un formato dati colonnare. Le query sui dati in formato Parquet sono da 10 a 100 volte più veloci, rispetto alle query sui dati in testo normale. I dati in formato Parquet con compressione Gzip occupano il 20% di spazio di archiviazione in meno, rispetto al testo normale con compressione Gzip.
Nota
Se i dati in formato Parquet con compressione Gzip sono inferiori a 100 KB per periodo di aggregazione, l'archiviazione dei dati in formato Parquet può occupare più spazio rispetto al testo normale con compressione Gzip a causa dei requisiti di memoria dei file Parquet.
Opzioni di file di log
È inoltre possibile specificare le seguenti opzioni.
-
Hive-compatible S3 prefixes (Prefissi S3 compatibili con Hive): Abilita i prefissi compatibili con Hive invece di importare partizioni negli strumenti compatibili. Prima di eseguire query, utilizza il comando MSCK REPAIR TABLE.
-
Hourly partitions (Partizioni orarie): se disponi di un grande volume di registri e di solito indirizzi le query a un'ora specifica, partizionando i log su base oraria puoi ottenere risultati più rapidi e risparmiare sui costi delle query.
Struttura del bucket S3 dei file di log
I file di log vengono salvati nel bucket Amazon S3; utilizzando una struttura di cartelle determinata dall'ID del flusso di log, dalla Regione e dalla loro data di creazione.
Per impostazione predefinita, i file vengono recapitati alla seguente posizione.
bucket-and-optional-prefix
/AWSLogs/account_id
/vpcflowlogs/region
/year
/month
/day
/
Se abiliti i prefissi S3 compatibili con Hive, i file vengono recapitati nella seguente posizione.
bucket-and-optional-prefix
/AWSLogs/aws-account-id=account_id
/aws-service=vpcflowlogs/aws-region=region
/year=year
/month=month
/day=day
/
Se abiliti le partizioni orarie, i file vengono recapitati nella seguente posizione.
bucket-and-optional-prefix
/AWSLogs/account_id
/vpcflowlogs/region
/year
/month
/day
/hour
/
Se abiliti le partizioni compatibili con Hive e partizioni il flusso di log per ora, i file vengono recapitati nella posizione seguente.
bucket-and-optional-prefix
/AWSLogs/aws-account-id=account_id
/aws-service=vpcflowlogs/aws-region=region
/year=year
/month=month
/day=day
/hour=hour
/
Nome del file di log
Il nome di un file di log si basa sull'ID del flusso di log, sulla Regione e sulla data e ora di creazione. I nomi file utilizzano il formato seguente.
aws_account_id
_vpcflowlogs_region
_flow_log_id
_YYYYMMDD
THHmm
Z_hash
.log.gz
Di seguito è riportato un esempio di file di registro per un log di flusso creato dall'account AWS 123456789012, per una risorsa in us-east-1 Regione, su June 20, 2018 at 16:20 UTC. Il file contiene i record del registro di flusso con un orario di fine compreso tra 16:20:00 e 16:24:59.
123456789012_vpcflowlogs_us-east-1_fl-1234abcd_20180620T1620Z_fe123456.log.gz