Seleccione sus preferencias de cookies

Usamos cookies esenciales y herramientas similares que son necesarias para proporcionar nuestro sitio y nuestros servicios. Usamos cookies de rendimiento para recopilar estadísticas anónimas para que podamos entender cómo los clientes usan nuestro sitio y hacer mejoras. Las cookies esenciales no se pueden desactivar, pero puede hacer clic en “Personalizar” o “Rechazar” para rechazar las cookies de rendimiento.

Si está de acuerdo, AWS y los terceros aprobados también utilizarán cookies para proporcionar características útiles del sitio, recordar sus preferencias y mostrar contenido relevante, incluida publicidad relevante. Para aceptar o rechazar todas las cookies no esenciales, haga clic en “Aceptar” o “Rechazar”. Para elegir opciones más detalladas, haga clic en “Personalizar”.

Convenciones de nomenclatura de archivos para exportaciones a Amazon S3 para Amazon RDS

Modo de enfoque
Convenciones de nomenclatura de archivos para exportaciones a Amazon S3 para Amazon RDS - Amazon Relational Database Service

Los datos exportados para tablas específicas se almacenan en el formato base_prefix/files, donde el prefijo base es el siguiente:

export_identifier/database_name/schema_name.table_name/

Por ejemplo:

export-1234567890123-459/rdststdb/rdststdb.DataInsert_7ADB5D19965123A2/

Hay dos convenciones para la forma en que se denominan los archivos.

  • Convención actual:

    batch_index/part-partition_index-random_uuid.format-based_extension

    El índice de lote es un número secuencial que representa un lote de datos leídos desde la tabla. Si no podemos dividir su tabla en pequeños fragmentos para exportarlos en paralelo, habrá varios índices de lote. Lo mismo ocurre si la tabla está dividida en varias tablas. Habrá varios índices de lote, uno para cada una de las particiones de la tabla principal.

    Si podemos dividir su tabla en pequeños fragmentos para que se lean en paralelo, solo estará la carpeta de índices de lote 1.

    Dentro de la carpeta de índices de lote, habrá uno o varios archivos Parquet que contienen los datos de la tabla. El prefijo del nombre de archivo Parquet es part-partition_index. Si la tabla está particionada, habrá varios archivos que comiencen por el índice de partición 00000.

    Puede haber huecos en la secuencia del índice de partición. Esto sucede porque cada partición se obtiene de una consulta por rangos de la tabla. Si no hay datos en el rango de esa partición, se omite ese número secuencial.

    Por ejemplo, supongamos que la columna id es la clave principal de la tabla y que sus valores mínimo y máximo son 100 y 1000. Al intentar exportar esta tabla con nueve particiones, la leemos con consultas paralelas como las siguientes:

    SELECT * FROM table WHERE id <= 100 AND id < 200 SELECT * FROM table WHERE id <= 200 AND id < 300

    Esto debería generar nueve archivos, del part-00000-random_uuid.gz.parquet al part-00008-random_uuid.gz.parquet. Sin embargo, si no hay filas con ID entre 200 y 350, una de las particiones completadas estará vacía y no se creará ningún archivo para ella. En el ejemplo anterior, no se crea part-00001-random_uuid.gz.parquet.

  • Convención anterior:

    part-partition_index-random_uuid.format-based_extension

    Es igual a la convención actual, pero sin el prefijo batch_index, por ejemplo:

    part-00000-c5a881bb-58ff-4ee6-1111-b41ecff340a3-c000.gz.parquet part-00001-d7a881cc-88cc-5ab7-2222-c41ecab340a4-c000.gz.parquet part-00002-f5a991ab-59aa-7fa6-3333-d41eccd340a7-c000.gz.parquet

La convención de nomenclatura de archivos está sujeta a cambios. Por lo tanto, cuando lea tablas de destino, recomendamos que lea todo lo que hay dentro del prefijo base de la tabla.

PrivacidadTérminos del sitioPreferencias de cookies
© 2025, Amazon Web Services, Inc o sus afiliados. Todos los derechos reservados.