Prácticas recomendadas para importar de Amazon S3 a DynamoDB - Amazon DynamoDB

Prácticas recomendadas para importar de Amazon S3 a DynamoDB

A continuación se describen las prácticas recomendadas para importar datos de Amazon S3 a DynamoDB.

No superar el límite de 50 000 objetos de S3

Cada trabajo de importación admite un máximo de 50 000 objetos de S3. Si su conjunto de datos contiene más de 50 000 objetos, considere la posibilidad de consolidarlos en objetos más grandes.

Evitar objetos S3 excesivamente grandes

Los objetos S3 se importan en paralelo. Disponer de numerosos objetos S3 de tamaño medio permite una ejecución paralela sin una sobrecarga excesiva. En el caso de elementos de menos de 1 KB, considere la posibilidad de colocar 4 000 000 de elementos en cada objeto S3. Si el tamaño promedio de sus elementos es mayor, coloque proporcionalmente menos elementos en cada objeto S3.

Aleatorizar los datos ordenados

Si un objeto S3 contiene los datos ordenados, puede crear una partición activa continua. Se trata de una situación en la que una partición recibe toda la actividad, después la siguiente partición tras esa y así sucesivamente. Los datos ordenados se definen como elementos en secuencia en el objeto S3 que se escribirán en la misma partición de destino durante la importación. Una situación habitual en la que los datos están ordenados es un archivo CSV en el que los elementos están ordenados por clave de partición, de modo que los elementos repetidos comparten la misma clave de partición.

Para evitar una partición activa continua, le recomendamos que aleatorice el orden en estos casos. De este modo, se puede mejorar el rendimiento al distribuir las operaciones de escritura. Para obtener más información, consulte Distribución de la actividad de escritura de forma eficiente al cargar los datos.

Comprimir datos para mantener el tamaño total del objeto S3 por debajo del límite regional

En el proceso de importación desde S3, existe un límite en el tamaño total de la suma de los datos de objetos S3 que se van a importar. El límite es de 15 TB en las regiones us-east-1, us-west-2 y eu-west-1, y de 1 TB en el resto de las regiones. El límite se basa en los tamaños de los objetos S3 sin procesar.

La compresión permite que quepan más datos brutos según el límite. Si la compresión por sí sola no es suficiente para ajustar la importación según el límite, también puede ponerse en contacto con AWS Premium Support para solicitar un aumento de la cuota.

Tener en cuenta cómo el tamaño del artículo afecta al rendimiento

Si el tamaño de elemento promedio es muy pequeño (inferior a 200 bytes), el proceso de importación puede tardar un poco más que en el caso de elementos de mayor tamaño.

Importar sin ningún índice secundario global

La duración de una tarea de importación puede depender de la presencia de uno o varios índices secundarios globales (GSI). Si tiene previsto establecer índices con claves de partición que tengan una cardinalidad baja, es posible que la importación sea más rápida si aplaza la creación de índices hasta que finalice la tarea de importación (en lugar de incluirlos en el trabajo de importación).

nota

La creación de un GSI durante la importación no genera gastos de escritura (la creación de un GSI después de la importación sí los generaría).