Migre los datos de Hadoop a Amazon S3 mediante Migrator WANdisco LiveData - Recomendaciones de AWS

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Migre los datos de Hadoop a Amazon S3 mediante Migrator WANdisco LiveData

Creado por Tony Velcich

Origen: clúster Hadoop en las instalaciones

Destino: Amazon S3

Tipo R: volver a alojar

Entorno: producción

Tecnologías: DataLakes macrodatos, nube híbrida, migración

Carga de trabajo: todas las demás cargas de trabajo

AWSservicios: Amazon S3

Resumen

Este patrón describe el proceso de migración de datos de Apache Hadoop desde un sistema de archivos distribuido de Hadoop () HDFS a Amazon Simple Storage Service (Amazon S3). Utiliza WANdisco LiveData Migrator para automatizar el proceso de migración de datos.

Requisitos previos y limitaciones

Requisitos previos 

  • Nodo perimetral del clúster de Hadoop donde se LiveData instalará Migrator. El nodo debe cumplir con los siguientes requisitos:

    • Especificación mínima: 4CPUs, 16 GBRAM, 100 GB de almacenamiento.

    • Red mínima de 2 Gbps.

    • Se puede acceder al puerto 8081 en su nodo perimetral para acceder a la WANdisco interfaz de usuario.

    • Java 1.8 de 64 bits.

    • Bibliotecas cliente de Hadoop instaladas en el nodo perimetral.

    • Posibilidad de autenticarse como HDFSsuperusuario (por ejemplo, «hdfs»).

    • Si Kerberos está activado en el clúster de Hadoop, en el nodo perimetral debe haber disponible un keytab válido que contenga un principal adecuado para el HDFS superusuario.

    • Consulte las notas de publicación para obtener una lista de los sistemas operativos compatibles.

  • Una AWS cuenta activa con acceso a un bucket de S3.

  • Un enlace de AWS Direct Connect establecido entre su clúster de Hadoop local (específicamente el nodo perimetral) y. AWS

Versiones de producto

  • LiveData Migrator 1.8.6

  • WANdiscoUI (OneUI) 5.8.0

Arquitectura

Pila de tecnología de origen

  • Clúster Hadoop en las instalaciones

Pila de tecnología de destino

  • Amazon S3

Arquitectura

El siguiente diagrama muestra la arquitectura de la solución LiveData Migrator.

Uso de WANdisco LiveData Migrator para automatizar el proceso de migración de datos de Hadoop a Amazon S3.

El flujo de trabajo consta de cuatro componentes principales para la migración de datos del entorno local HDFS a Amazon S3.

  • LiveData Migrator: automatiza la migración de datos desde HDFS Amazon S3 y reside en un nodo perimetral del clúster de Hadoop.

  • HDFS— Un sistema de archivos distribuido que proporciona un acceso de alto rendimiento a los datos de las aplicaciones.

  • Amazon S3: un servicio de almacenamiento de objetos de AWS que ofrece escalabilidad, disponibilidad de datos, seguridad y rendimiento.

  • AWSDirect Connect: un servicio que establece una conexión de red dedicada desde sus centros de datos locales aAWS.

Automatizar y escalar

Por lo general, se crean varias migraciones para poder seleccionar contenido específico del sistema de archivos de origen por ruta o directorio. También puede migrar datos a varios sistemas de archivos independientes al mismo tiempo definiendo varios recursos de migración.

Epics

TareaDescripciónHabilidades requeridas

Inicie sesión en su cuenta de AWS.

Inicie sesión en la consola AWS de administración y abra la consola de Amazon S3 en https://console.aws.amazon.com/s3/.

AWSexperiencia

Cree un bucket de S3.

Si aún no tiene un depósito de S3 existente para usarlo como almacenamiento de destino, elija la opción «Crear depósito» en la consola de Amazon S3 y especifique el nombre del depósito, la AWS región y la configuración del depósito para bloquear el acceso público. AWSy WANdisco le recomendamos que habilite las opciones de bloqueo de acceso público para el bucket de S3 y que configure las políticas de acceso al bucket y permisos de usuario para cumplir con los requisitos de su organización. Puede AWS encontrar un ejemplo en https://docs.aws.amazon.com/AmazonS3/latest/dev/example-walkthroughs-managing-access-example1.html.

AWSexperiencia
TareaDescripciónHabilidades requeridas

Descargue el LiveData instalador de Migrator.

Descargue el LiveData instalador de Migrator y cárguelo en el nodo perimetral de Hadoop. Puede descargar una versión de prueba gratuita de LiveData Migrator en /aws.amazon.com/marketplace/pp/B07B8. https://www2.wandisco.com/ldm-trial. You can also obtain access to LiveData Migrator from AWS Marketplace, at https:/ SZND9

Administrador de Hadoop, propietario de la aplicación

Instale Migrator. LiveData

Utilice el instalador descargado e instale LiveData Migrator como HDFS superusuario en un nodo perimetral de su clúster de Hadoop. Consulte la sección “Información adicional” para ver los comandos de instalación.

Administrador de Hadoop, propietario de la aplicación

Compruebe el estado de LiveData Migrator y otros servicios.

Compruebe el estado de LiveData Migrator, Hive migrator y WANdisco UI mediante los comandos que se proporcionan en la sección «Información adicional».

Administrador de Hadoop, propietario de la aplicación
TareaDescripciónHabilidades requeridas

Registre su cuenta de LiveData Migrator.

Inicie sesión en la WANdisco interfaz de usuario a través de un navegador web en el puerto 8081 (en el nodo perimetral de Hadoop) y proporcione sus datos para registrarse. Por ejemplo, si ejecuta LiveData Migrator en un host llamado myldmhost.example.com, sería: http://myldmhost.example.com:8081 URL

Propietario de la aplicación

HDFSConfigure el almacenamiento de origen.

Proporcione los detalles de configuración necesarios para el HDFS almacenamiento de origen. Esto incluirá el valor "fs.defaultFS" y un nombre de almacenamiento definido por el usuario. Si Kerberos está habilitado, proporcione la ubicación principal y la ubicación de la pestaña clave para que la utilice LiveData Migrator. Si NameNode HA está habilitado en el clúster, proporcione una ruta a los archivos core-site.xml y hdfs-site.xml del nodo perimetral.

Administrador de Hadoop, propietario de la aplicación

Configure el almacenamiento de Amazon S3 de destino.

Añada su almacenamiento de destino como del tipo S3a. Proporcione el nombre de almacenamiento definido por el usuario y el nombre del bucket de S3. Introduzca «org.apache.hadoop.fs.s3a.s impleAWSCredentials Provider» como opción de proveedor de credenciales y proporcione las claves secretas y de acceso del bucket de S3. AWS También se necesitarán propiedades de S3a adicionales. Para obtener más información, consulte la sección «Propiedades del S3a» de la documentación de Migrator en docs/command-reference/# 3a. LiveData https://docs.wandisco.com/live-data-migrator/ filesystem-add-s

AWS, propietario de la aplicación
TareaDescripciónHabilidades requeridas

Añada exclusiones (si es necesario).

Si desea excluir conjuntos de datos específicos de la migración, añada exclusiones para el almacenamiento de origenHDFS. Estas exclusiones pueden basarse en el tamaño del archivo, los nombres de los archivos (según los patrones de expresiones regulares) y la fecha de modificación.

Administrador de Hadoop, propietario de la aplicación
TareaDescripciónHabilidades requeridas

Cree y configure la migración.

Cree una migración en el panel de control de la WANdisco interfaz de usuario. Elija su origen (HDFS) y su destino (el bucket de S3). Añada las nuevas exclusiones que ha definido en el paso anterior. Seleccione la opción "Sobrescribir" u "Omitir si el tamaño coincide". Cree la migración cuando todos los campos estén completos.

Administrador de Hadoop, propietario de la aplicación

Inicie la migración.

En el panel de control, seleccione la migración que ha creado. Haga clic para iniciar la migración. También puede iniciar una migración automáticamente si selecciona la opción de inicio automático al crear la migración.

Propietario de la aplicación
TareaDescripciónHabilidades requeridas

Establezca un límite de ancho de banda de la red entre el origen y el destino.

En la lista de almacenamientos del panel de control, seleccione su almacenamiento de origen y seleccione "Administración del ancho de banda" en la lista de agrupamiento. Desactive la opción ilimitada y defina el límite y la unidad de ancho de banda máximos. Seleccione “Aplicar”.

Propietario de la aplicación, Networking
TareaDescripciónHabilidades requeridas

Consulta la información de migración mediante la WANdisco interfaz de usuario.

Utilice la WANdisco interfaz de usuario para ver la información sobre licencias, ancho de banda, almacenamiento y migración. La interfaz de usuario también proporciona un sistema de notificaciones para que pueda recibir notificaciones sobre errores, advertencias o hitos importantes en su uso.

Administrador de Hadoop, propietario de la aplicación

Detenga, reanude y elimine las migraciones.

Puede impedir que una migración transfiera contenido a su destino colocándola en el STOPPED estado. Las migraciones detenidas se pueden reanudar. Las migraciones en el STOPPED estado también se pueden eliminar.

Administrador de Hadoop, propietario de la aplicación

Recursos relacionados

Información adicional

Instalación de Migrator LiveData

Puede usar los siguientes comandos para instalar LiveData Migrator, suponiendo que el instalador esté dentro de su directorio de trabajo:

su – hdfs chmod +x livedata-migrator.sh && sudo ./livedata-migrator.sh

Comprobar el estado de LiveData Migrator y otros servicios después de la instalación

Utilice los siguientes comandos para comprobar el estado de LiveData Migrator, Hive migrator y UI: WANdisco

service livedata-migrator status service hivemigrator status service livedata-ui status