Cargue datos conAWS DataSync

AWS DataSynces un servicio de transferencia de datos en línea que simplifica, automatiza y acelera el proceso de transferencia de datos entre el almacenamiento local y los servicios de almacenamiento o entre los servicios de AWS almacenamiento. AWS DataSync admite diversos sistemas de almacenamiento local, como el sistema de archivos distribuido Hadoop (HDFS), los servidores de archivos NAS y el almacenamiento de objetos autogestionado.

La forma más común de tener datos en un clúster es mediante la carga de datos en Amazon S3 y el uso de características integradas de Amazon EMR para cargar los datos en el clúster.

DataSync puede ayudarle a realizar las siguientes tareas:

Replicar el HDFS de su clúster de Hadoop en Amazon S3 para garantizar la continuidad empresarial
Copiar el HDFS a Amazon S3 para rellenar sus lagos de datos
Transferir datos entre el HDFS de su clúster de Hadoop y Amazon S3 para su análisis y procesamiento

Para cargar datos a su depósito de S3, primero debe implementar uno o más DataSync agentes en la misma red que su almacenamiento local. Un agente es una máquina virtual (VM) que se utiliza para leer o escribir datos en una ubicación autoadministrada. A continuación, activa los agentes en el depósito de S3 Cuenta de AWS y en el Región de AWS lugar en el que se encuentra.

Una vez activado el agente, debe crear una ubicación de origen para el almacenamiento en las instalaciones, una ubicación de destino para el bucket de S3 y una tarea. Una tarea es un conjunto de dos ubicaciones (origen y destino) y un conjunto de opciones predeterminadas que se utilizan para controlar el comportamiento de la tarea.

Por último, ejecuta la DataSync tarea de transferir los datos del origen al destino.

Para obtener más información, consulta Introducción a AWS DataSync.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Carga de datos en S3 Express One Zone

Importación de archivos con caché distribuida con Amazon EMR