Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Carga de datos con AWS DataSync
AWS DataSync es un servicio de transferencia de datos en línea que simplifica, automatiza y acelera el proceso de transferencia de datos entre el almacenamiento local y los servicios de almacenamiento o entre los servicios AWS de almacenamiento. AWS DataSync admite diversos sistemas de almacenamiento local, como el Sistema de archivos distribuido de Hadoop (HDFS), los servidores de archivos y el almacenamiento de objetos NAS autogestionado.
La forma más común de incluir datos en un clúster es cargarlos en Amazon S3 y utilizar las funciones integradas de Amazon EMR para cargar los datos en el clúster.
DataSync puede ayudarle a realizar las siguientes tareas:
-
Replique HDFS en su clúster de Hadoop a Amazon S3 para garantizar la continuidad empresarial
-
Copie HDFS a Amazon S3 para poblar sus lagos de datos
-
Transfiera datos entre su clúster de Hadoop HDFS y Amazon S3 para analizarlos y procesarlos
Para cargar datos a su depósito de S3, primero debe implementar uno o más DataSync agentes en la misma red que su almacenamiento local. Un agente es una máquina virtual (VM) que se utiliza para leer o escribir datos en una ubicación autoadministrada. A continuación, activa los agentes en el depósito de S3 Cuenta de AWS y en el Región de AWS lugar en el que se encuentra.
Una vez activado el agente, debe crear una ubicación de origen para el almacenamiento en las instalaciones, una ubicación de destino para el bucket de S3 y una tarea. Una tarea es un conjunto de dos ubicaciones (origen y destino) y un conjunto de opciones predeterminadas que se utilizan para controlar el comportamiento de la tarea.
Por último, ejecuta la DataSync tarea de transferir los datos del origen al destino.
Para obtener más información, consulta Introducción a AWS DataSync.