Buat tabel untuk log aliran dalam format Apache Parquet

Mode fokus

Buat tabel untuk log aliran dalam format Apache Parquet - Amazon Athena

Prosedur berikut membuat VPC tabel Amazon untuk log VPC aliran Amazon dalam format Apache Parquet.

Untuk membuat tabel Athena untuk log VPC aliran Amazon dalam format Parket

Masukkan DDL pernyataan seperti berikut ini ke editor kueri konsol Athena, mengikuti pedoman di bagian iniPertimbangan dan batasan. Pernyataan sampel membuat tabel yang memiliki kolom untuk log VPC aliran Amazon versi 2 hingga 5 seperti yang didokumentasikan dalam catatan log Flow dalam format Parket, Hive dipartisi setiap jam. Jika Anda tidak memiliki partisi per jam, hapus hour dari klausa. PARTITIONED BY


CREATE EXTERNAL TABLE IF NOT EXISTS vpc_flow_logs_parquet (
  version int,
  account_id string,
  interface_id string,
  srcaddr string,
  dstaddr string,
  srcport int,
  dstport int,
  protocol bigint,
  packets bigint,
  bytes bigint,
  start bigint,
  `end` bigint,
  action string,
  log_status string,
  vpc_id string,
  subnet_id string,
  instance_id string,
  tcp_flags int,
  type string,
  pkt_srcaddr string,
  pkt_dstaddr string,
  region string,
  az_id string,
  sublocation_type string,
  sublocation_id string,
  pkt_src_aws_service string,
  pkt_dst_aws_service string,
  flow_direction string,
  traffic_path int
)
PARTITIONED BY (
  `aws-account-id` string,
  `aws-service` string,
  `aws-region` string,
  `year` string, 
  `month` string, 
  `day` string,
  `hour` string
)
ROW FORMAT SERDE 
  'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe'
STORED AS INPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat' 
OUTPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat'
LOCATION
  's3://amzn-s3-demo-bucket/prefix/AWSLogs/'
TBLPROPERTIES (
  'EXTERNAL'='true', 
  'skip.header.line.count'='1'
  )

Ubah sampel LOCATION 's3://amzn-s3-demo-bucket/prefix/AWSLogs/' untuk menunjuk ke jalur Amazon S3 yang berisi data log Anda.
Jalankan kueri di konsol Athena.
Jika data Anda dalam format yang kompatibel dengan HIVE, jalankan perintah berikut di konsol Athena untuk memperbarui dan memuat partisi Hive di metastore. Setelah kueri selesai, Anda dapat menanyakan data dalam vpc_flow_logs_parquet tabel.
```
MSCK REPAIR TABLE vpc_flow_logs_parquet
```
Jika Anda tidak menggunakan data yang kompatibel dengan Hive, jalankan ALTER TABLE ADD PARTITION untuk memuat partisi.

Untuk informasi selengkapnya tentang penggunaan Athena untuk menanyakan log VPC aliran Amazon dalam format Parket, lihat posting Optimalkan kinerja dan kurangi biaya untuk analitik jaringan dengan VPC Flow Logs dalam format Apache Parquet di Blog Big Data.AWS

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Membuat tabel

Gunakan proyeksi partisi

Pilih preferensi cookie Anda

Sesuaikan preferensi cookie

Penting

Kinerja

Fungsional

Iklan

Tidak dapat menyimpan preferensi cookie

Buat tabel untuk log aliran dalam format Apache Parquet

Untuk membuat tabel Athena untuk log VPC aliran Amazon dalam format Parket

Apakah halaman ini membantu Anda?

Topik berikutnya:

Topik sebelumnya:

Perlu bantuan?