Menemukan daftar inventaris - Amazon Simple Storage Service

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menemukan daftar inventaris

Saat daftar inventaris diterbitkan, file manifes akan diterbitkan ke lokasi berikut di dalam bucket tujuan.

destination-prefix/source-bucket/config-ID/YYYY-MM-DDTHH-MMZ/manifest.json destination-prefix/source-bucket/config-ID/YYYY-MM-DDTHH-MMZ/manifest.checksum destination-prefix/source-bucket/config-ID/hive/dt=YYYY-MM-DD-HH-MM/symlink.txt
  • destination-prefix adalah awalan nama kunci objek yang ditentukan secara opsional didalam konfigurasi inventaris. Gunakan awalan ini untuk mengelompokkan semua file daftar inventaris di lokasi yang sama di dalam bucket tujuan.

  • source-bucket adalah bucket sumber yang digunakan untuk daftar inventaris. Nama bucket sumber ditambahkan untuk mencegah benturan saat beberapa laporan inventaris dari bucket sumber yang berbeda dikirimkan ke bucket tujuan yang sama.

  • config-ID ditambahkan untuk mencegah benturan dengan beberapa laporan inventaris dari bucket sumber yang sama yang dikirim ke bucket tujuan yang sama. config-ID berasal dari konfigurasi laporan inventaris, dan merupakan nama untuk laporan yang ditentukan selama pengaturan.

  • YYYY-MM-DDTHH-MMZ adalah stempel waktu yang berisi waktu mulai dan tanggal saat proses pembuatan laporan inventaris memulai pemindaian bucket; misalnya, 2016-11-06T21-32Z.

  • manifest.json adalah file manifes.

  • manifest.checksumadalah MD5 hash dari isi manifest.json file.

  • symlink.txtadalah Apache Hive-file manifes yang kompatibel.

Daftar inventaris diterbitkan setiap hari atau setiap minggu ke lokasi berikut di dalam bucket tujuan.

destination-prefix/source-bucket/config-ID/data/example-file-name.csv.gz ... destination-prefix/source-bucket/config-ID/data/example-file-name-1.csv.gz
  • destination-prefix adalah awalan nama kunci objek yang ditentukan secara opsional di dalam konfigurasi inventaris. Gunakan awalan ini untuk mengelompokkan semua file daftar inventaris di lokasi yang sama di dalam bucket tujuan.

  • source-bucket adalah bucket sumber yang digunakan untuk daftar inventaris. Nama bucket sumber ditambahkan untuk mencegah benturan saat beberapa laporan inventaris dari bucket sumber yang berbeda dikirimkan ke bucket tujuan yang sama.

  • example-file-name.csv.gzadalah salah satu file CSV inventaris. ORCnama inventaris diakhiri dengan ekstensi nama file.orc, dan Parquet nama inventaris diakhiri dengan ekstensi nama file.parquet.

Manifes inventaris

File manifes manifest.json dan symlink.txt menjelaskan lokasi tempat file inventaris berada. Setiap kali ada daftar inventaris baru yang dikirimkan, daftar tersebut akan disertai dengan serangkaian file manifes baru. File-file ini mungkin akan saling menimpa. Di bucket dengan Penentuan Versi yang diaktifkan, Amazon S3 akan membuat versi baru dari file manifes tersebut.

Setiap manifes yang terdapat di dalam file manifest.json menyediakan metadata dan informasi dasar lainnya tentang inventaris. Informasi ini mencakup hal-hal berikut:

  • Nama bucket sumber

  • Nama bucket tujuan

  • Versi inventaris

  • Pembuatan stempel waktu dengan format tanggal epoch yang terdiri dari waktu mulai dan tanggal saat proses pembuatan laporan inventaris memulai pemindaian bucket

  • Format dan skema file inventaris

  • Daftar file inventaris yang berada di dalam bucket tujuan

Setiap kali manifest.json file ditulis, itu disertai dengan manifest.checksum file yang merupakan MD5 hash dari konten manifest.json file.

contoh Manifes inventaris di dalam file manifest.json

Contoh berikut menunjukkan manifes inventaris dalam manifest.json file untukCSV,ORC, dan Parquet-inventaris yang diformat.

CSV

Berikut ini adalah contoh manifes dalam manifest.json file untuk inventaris yang CSV diformat.

{ "sourceBucket": "example-source-bucket", "destinationBucket": "arn:aws:s3:::example-inventory-destination-bucket", "version": "2016-11-30", "creationTimestamp" : "1514944800000", "fileFormat": "CSV", "fileSchema": "Bucket, Key, VersionId, IsLatest, IsDeleteMarker, Size, LastModifiedDate, ETag, StorageClass, IsMultipartUploaded, ReplicationStatus, EncryptionStatus, ObjectLockRetainUntilDate, ObjectLockMode, ObjectLockLegalHoldStatus, IntelligentTieringAccessTier, BucketKeyStatus, ChecksumAlgorithm, ObjectAccessControlList, ObjectOwner", "files": [ { "key": "Inventory/example-source-bucket/2016-11-06T21-32Z/files/939c6d46-85a9-4ba8-87bd-9db705a579ce.csv.gz", "size": 2147483647, "MD5checksum": "f11166069f1990abeb9c97ace9cdfabc" } ] }
ORC

Berikut ini adalah contoh manifes dalam manifest.json file untuk inventaris yang ORC diformat.

{ "sourceBucket": "example-source-bucket", "destinationBucket": "arn:aws:s3:::example-destination-bucket", "version": "2016-11-30", "creationTimestamp" : "1514944800000", "fileFormat": "ORC", "fileSchema": "struct<bucket:string,key:string,version_id:string,is_latest:boolean,is_delete_marker:boolean,size:bigint,last_modified_date:timestamp,e_tag:string,storage_class:string,is_multipart_uploaded:boolean,replication_status:string,encryption_status:string,object_lock_retain_until_date:timestamp,object_lock_mode:string,object_lock_legal_hold_status:string,intelligent_tiering_access_tier:string,bucket_key_status:string,checksum_algorithm:string,object_access_control_list:string,object_owner:string>", "files": [ { "key": "inventory/example-source-bucket/data/d794c570-95bb-4271-9128-26023c8b4900.orc", "size": 56291, "MD5checksum": "5925f4e78e1695c2d020b9f6eexample" } ] }
Parquet

Berikut ini adalah contoh manifes dalam manifest.json file untuk Parquet-inventaris yang diformat.

{ "sourceBucket": "example-source-bucket", "destinationBucket": "arn:aws:s3:::example-destination-bucket", "version": "2016-11-30", "creationTimestamp" : "1514944800000", "fileFormat": "Parquet", "fileSchema": "message s3.inventory { required binary bucket (UTF8); required binary key (UTF8); optional binary version_id (UTF8); optional boolean is_latest; optional boolean is_delete_marker; optional int64 size; optional int64 last_modified_date (TIMESTAMP_MILLIS); optional binary e_tag (UTF8); optional binary storage_class (UTF8); optional boolean is_multipart_uploaded; optional binary replication_status (UTF8); optional binary encryption_status (UTF8); optional int64 object_lock_retain_until_date (TIMESTAMP_MILLIS); optional binary object_lock_mode (UTF8); optional binary object_lock_legal_hold_status (UTF8); optional binary intelligent_tiering_access_tier (UTF8); optional binary bucket_key_status (UTF8); optional binary checksum_algorithm (UTF8); optional binary object_access_control_list (UTF8); optional binary object_owner (UTF8);}", "files": [ { "key": "inventory/example-source-bucket/data/d754c470-85bb-4255-9218-47023c8b4910.parquet", "size": 56291, "MD5checksum": "5825f2e18e1695c2d030b9f6eexample" } ] }

symlink.txtFile tersebut adalah Apache Hive-file manifes yang kompatibel yang memungkinkan Hive untuk secara otomatis menemukan file inventaris dan file data terkait mereka. Bagian Hive-Manifes yang kompatibel bekerja dengan Hive-layanan yang kompatibel Athena dan Amazon Redshift Spectrum. Ini juga bekerja dengan Hive-aplikasi yang kompatibel, termasuk Presto, Apache Hive, Apache Spark, dan banyak lainnya.

penting

Sebuah symlink.txt Apache Hive-file manifes yang kompatibel saat ini tidak berfungsi dengan AWS Glue.

Membaca symlink.txt file dengan Apache Hive dan Apache Sparktidak didukung untuk ORC dan Parquet-file inventaris yang diformat.