Buat tabel untuk log aliran dalam format Apache Parquet - Amazon Athena

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Buat tabel untuk log aliran dalam format Apache Parquet

Prosedur berikut membuat VPC tabel Amazon untuk log VPC aliran Amazon dalam format Apache Parquet.

Untuk membuat tabel Athena untuk log VPC aliran Amazon dalam format Parket
  1. Masukkan DDL pernyataan seperti berikut ini ke editor kueri konsol Athena, mengikuti pedoman di bagian iniPertimbangan dan batasan. Pernyataan sampel membuat tabel yang memiliki kolom untuk log VPC aliran Amazon versi 2 hingga 5 seperti yang didokumentasikan dalam catatan log Flow dalam format Parket, Hive dipartisi setiap jam. Jika Anda tidak memiliki partisi per jam, hapus hour dari klausa. PARTITIONED BY

    CREATE EXTERNAL TABLE IF NOT EXISTS vpc_flow_logs_parquet ( version int, account_id string, interface_id string, srcaddr string, dstaddr string, srcport int, dstport int, protocol bigint, packets bigint, bytes bigint, start bigint, `end` bigint, action string, log_status string, vpc_id string, subnet_id string, instance_id string, tcp_flags int, type string, pkt_srcaddr string, pkt_dstaddr string, region string, az_id string, sublocation_type string, sublocation_id string, pkt_src_aws_service string, pkt_dst_aws_service string, flow_direction string, traffic_path int ) PARTITIONED BY ( `aws-account-id` string, `aws-service` string, `aws-region` string, `year` string, `month` string, `day` string, `hour` string ) ROW FORMAT SERDE 'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe' STORED AS INPUTFORMAT 'org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat' LOCATION 's3://amzn-s3-demo-bucket/prefix/AWSLogs/' TBLPROPERTIES ( 'EXTERNAL'='true', 'skip.header.line.count'='1' )
  2. Ubah sampel LOCATION 's3://amzn-s3-demo-bucket/prefix/AWSLogs/' untuk menunjuk ke jalur Amazon S3 yang berisi data log Anda.

  3. Jalankan kueri di konsol Athena.

  4. Jika data Anda dalam format yang kompatibel dengan HIVE, jalankan perintah berikut di konsol Athena untuk memperbarui dan memuat partisi Hive di metastore. Setelah kueri selesai, Anda dapat menanyakan data dalam vpc_flow_logs_parquet tabel.

    MSCK REPAIR TABLE vpc_flow_logs_parquet

    Jika Anda tidak menggunakan data yang kompatibel dengan Hive, jalankan ALTER TABLE ADD PARTITION untuk memuat partisi.

Untuk informasi selengkapnya tentang penggunaan Athena untuk menanyakan log VPC aliran Amazon dalam format Parket, lihat posting Optimalkan kinerja dan kurangi biaya untuk analitik jaringan dengan VPC Flow Logs dalam format Apache Parquet di Blog Big Data.AWS