Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Crea tabelle per i log di flusso in formato Apache Parquet
La procedura seguente crea una VPC tabella Amazon per i log di VPC flusso di Amazon in formato Apache Parquet.
Per creare una tabella Athena per i log di VPC flusso di Amazon in formato Parquet
-
Inserisci un'DDListruzione come la seguente nell'editor di query della console Athena, seguendo le linee guida nella Considerazioni e limitazioni sezione. L'istruzione di esempio crea una tabella con le colonne per le versioni da 2 a 5 dei log di VPC flusso di Amazon, come documentato nei record di log di flusso in formato Parquet, Hive partizionato ogni ora. Se non disponi di partizioni orarie, rimuovi
hour
dalla clausolaPARTITIONED BY
.CREATE EXTERNAL TABLE IF NOT EXISTS vpc_flow_logs_parquet ( version int, account_id string, interface_id string, srcaddr string, dstaddr string, srcport int, dstport int, protocol bigint, packets bigint, bytes bigint, start bigint, `end` bigint, action string, log_status string, vpc_id string, subnet_id string, instance_id string, tcp_flags int, type string, pkt_srcaddr string, pkt_dstaddr string, region string, az_id string, sublocation_type string, sublocation_id string, pkt_src_aws_service string, pkt_dst_aws_service string, flow_direction string, traffic_path int ) PARTITIONED BY ( `aws-account-id` string, `aws-service` string, `aws-region` string, `year` string, `month` string, `day` string, `hour` string ) ROW FORMAT SERDE 'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe' STORED AS INPUTFORMAT 'org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat' LOCATION 's3://amzn-s3-demo-bucket/
prefix
/AWSLogs/' TBLPROPERTIES ( 'EXTERNAL'='true', 'skip.header.line.count'='1' ) -
Modificare
LOCATION 's3://amzn-s3-demo-bucket/
perché punti al bucket Amazon S3 che contiene i dati di log.prefix
/AWSLogs/' -
Eseguire la query nella console Athena.
-
Se i dati sono in formato compatibile con Hive, esegui il seguente comando nella console Athena per aggiornare e caricare le partizioni Hive nel metastore. Una volta completata la query, è possibile eseguire query sui dati nella tabella
vpc_flow_logs_parquet
.MSCK REPAIR TABLE vpc_flow_logs_parquet
Se non utilizzi dati compatibili con Hive, esegui ALTER TABLE ADD PARTITION per caricare le partizioni.
Per ulteriori informazioni sull'utilizzo di Athena per interrogare i log di VPC flusso di Amazon in formato Parquet, consulta il post Ottimizzazione delle prestazioni e riduzione dei costi per l'analisi di rete con VPC Flow Logs in formato Apache Parquet nel