Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Migre las cargas de trabajo de Cloudera locales a Cloudera Data Platform en AWS
Creado por Battulga Purevragchaa (AWS), Nijjwol Lamsal (socio) y Nidhi Gupta () AWS
Entorno: PoC o piloto | Origen: Cargas de trabajo de Cloudera | Objetivo: Plataforma de datos Cloudera () Nube pública CDP |
Tipo R: N/D | Carga de trabajo: todas las demás cargas de trabajo | Tecnologías: migración; macrodatos; bases de datos; análisis |
AWSservicios: AmazonEC2; AmazonEKS; AWS Identity and Access Management; Amazon S3; Amazon RDS |
Resumen
Este patrón describe los pasos de alto nivel para migrar sus cargas de trabajo locales de Cloudera Distributed Hadoop (CDH), Hortonworks Data Platform (HDP) y Cloudera Data Platform () a Public Cloud on. CDP CDP AWS Le recomendamos que se asocie con los servicios profesionales de Cloudera y con un integrador de sistemas (SI) para implementar estos pasos.
Hay muchos motivos por los que los clientes de Cloudera quieren trasladar sus cargas de trabajo y locales a la nube. CDH HDP CDP Algunas de las razones más habituales son las siguientes:
Optimizar la adopción de nuevos paradigmas de plataformas de datos, como Data Lakehouse o Data Mesh
Aumentar la agilidad empresarial, democratice el acceso y la inferencia sobre los activos de datos existentes
Reduzca el coste total de propiedad () TCO
Mejorar la elasticidad de la carga
Permitir una mayor escalabilidad; reducir drásticamente el tiempo de aprovisionamiento de los servicios de datos en comparación con la base de instalación en las instalaciones heredada
Eliminar el hardware heredado y reducir significativamente los ciclos de actualización del hardware
Aproveche los precios pay-as-you listos para usar, que se extienden a las cargas de trabajo de Cloudera AWS con el modelo de licencias de Cloudera () CCU
Aprovechar una implementación más rápida y una mejor integración con las plataformas de integración continua y entrega continua (CI/CD)
Utilice una única plataforma unificada () CDP para múltiples cargas de trabajo
Cloudera es compatible con las principales cargas de trabajo, incluidas Machine Learning, Data Engineering, Data Warehouse, Operational Database, Stream Processing (CSP) y seguridad y gobierno de los datos. Cloudera lleva muchos años ofreciendo estas cargas de trabajo de forma local, y usted puede migrarlas a la AWS nube utilizando la nube CDP pública con Workload Manager y Replication Manager.
Cloudera Shared Data Experience (SDX) proporciona un catálogo de metadatos compartido entre estas cargas de trabajo para facilitar la gestión y las operaciones de datos coherentes. SDXtambién incluye una seguridad integral y granular para protegerse contra las amenazas y una gobernanza unificada para las capacidades de auditoría y búsqueda a fin de cumplir con estándares como el Estándar de Seguridad de Datos del Sector de Tarjetas de Pago (PCIDSS) y. GDPR
CDPmigración de un vistazo
Carga de trabajo | Carga de trabajo de origen | CDHHDP, y nube CDP privada |
Entorno de origen |
| |
Carga de trabajo del destino | CDPNube pública activada AWS | |
Entorno de destino |
| |
Migración | Estrategia de migración (7Rs) | Volver a alojar, redefinir la plataforma o refactorizar |
¿Se trata de una actualización de la versión de carga de trabajo? | Sí | |
Duración de la migración |
| |
Costo | Coste de ejecutar la carga de trabajo en AWS |
|
Marco y acuerdos de infraestructura | Requisitos del sistema | Consulte la sección Requisitos previos. |
SLA | Consulte el acuerdo de nivel de servicio de Cloudera | |
DR | Consulte la recuperación de desastres | |
Modelo operativo y de licencia (para la AWS cuenta de destino) | Modelo Bring Your Own License (BYOL) | |
Conformidad | Requisitos de seguridad | Consulte la descripción general de seguridad de Cloudera |
Consulte la información en el sitio web de Cloudera sobre el cumplimiento del Reglamento general de protección de datos (GDPR |
Requisitos previos y limitaciones
Requisitos previos
AWSrequisitos de la cuenta
, incluidas las cuentas, los recursos, los servicios y los permisos, como la configuración de políticas y funciones de AWS Identity and Access Management (IAM) Requisitos previos para la implementación CDP
desde el sitio web de Cloudera
La migración requiere los siguientes roles y experiencia:
Rol | Habilidades y responsabilidades |
Líder de migración | Garantiza el apoyo ejecutivo, la colaboración en equipo, la planificación, la implementación y la evaluación |
Cloudera SME | Conocimientos especializados en CDH CDP administración, administración de sistemas y arquitectura HDP |
Arquitecto AWS | Habilidades en AWS servicios, redes, seguridad y arquitecturas |
Arquitectura
Construir según la arquitectura adecuada es un paso fundamental para garantizar que la migración y el rendimiento satisfagan sus expectativas. Para que su esfuerzo de migración cumpla con las suposiciones de este manual, su entorno de datos de destino en la AWS nube, ya sea en instancias alojadas en la nube privada virtual (VPC) oCDP, debe ser equivalente al entorno de origen en términos de versiones del sistema operativo y software, así como de las principales especificaciones de las máquinas.
El siguiente diagrama (reproducido con permiso de la hoja de datos de Cloudera Shared Data Experience
La arquitectura incluye los siguientes CDP componentes:
Data Hub es un servicio para lanzar y gestionar clústeres de cargas de trabajo con tecnología Cloudera Runtime. Puede usar las definiciones de clústeres de Data Hub para aprovisionar clústeres de carga de trabajo y acceder a ellos para casos de uso personalizados y definir configuraciones de clústeres personalizadas. Para obtener más información, consulte el sitio web de Cloudera
. El flujo y la transmisión de datos abordan los principales desafíos a los que se enfrentan las empresas con los datos en movimiento. Gestiona lo siguiente:
Procesamiento del flujo de datos en tiempo real a gran volumen y a gran escala
Seguimiento de la procedencia de los datos y del linaje de los datos de streaming
Gestión y supervisión de las aplicaciones periféricas y las fuentes de streaming
Para obtener más información, consulte Cloudera DataFlow
y CSP en el sitio web de Cloudera. La ingeniería de datos incluye la integración, la calidad y el gobierno de los datos, lo que ayuda a las organizaciones a crear y mantener flujos de trabajo y flujos de datos. Para obtener más información, consulte el sitio web de Cloudera
. Obtenga información sobre la compatibilidad con instancias puntuales para facilitar el ahorro de costes en las cargas de trabajo de AWS ingeniería de datos de Cloudera. Data Warehouse le permite crear data warehouses y data marts independientes que se escalan automáticamente para satisfacer las demandas de carga de trabajo. Este servicio proporciona instancias informáticas aisladas y una optimización automatizada para cada almacén de datos y mercado de datos, y le ayuda a ahorrar costes durante las reuniones. SLAs Para obtener más información, consulte el sitio web de Cloudera
. Obtenga información sobre la gestión de costes y el autoscalamiento de Cloudera Data Warehouse en. AWS Operational Database in CDP proporciona una base fiable y flexible para aplicaciones escalables y de alto rendimiento. Ofrece una base de datos escalable, siempre disponible y en tiempo real que proporciona datos estructurados tradicionales junto con datos nuevos y no estructurados dentro de una plataforma operativa y de almacenamiento unificada. Para obtener más información, consulte el sitio web de Cloudera
. Machine Learning es una plataforma de machine learning nativa de la nube que combina las capacidades de autoservicio de ciencia de datos e ingeniería de datos en un único servicio portátil dentro de una nube de datos empresarial. Permite la implementación escalable del machine learning y la inteligencia artificial (IA) en los datos en cualquier lugar. Para obtener más información, consulte el sitio web de Cloudera
.
CDPen AWS
El siguiente diagrama (adaptado con permiso del sitio web de Cloudera) muestra la arquitectura de alto nivel de CDP onAWS. CDPimplementa su propio modelo de seguridad
El plano CDP de control reside en una cuenta maestra propia VPC de Cloudera. Cada cuenta de cliente tiene su propia subcuenta y es única. VPC Las IAM funciones y SSL tecnologías entre cuentas dirigen el tráfico de administración hacia y desde el plano de control a los servicios de atención al cliente, que residen en las subredes públicas enrutables por Internet de cada cliente. VPC En el caso del clienteVPC, la experiencia de datos compartidos de Cloudera (SDX) proporciona una seguridad empresarial sólida con una gobernanza y un cumplimiento unificados para que pueda obtener información a partir de sus datos con mayor rapidez. SDXes una filosofía de diseño incorporada en todos los productos de Cloudera. Para obtener más información sobre la arquitectura de red de CDP Public Cloud SDX
Herramientas
AWSservicios
Amazon Elastic Compute Cloud (AmazonEC2) proporciona capacidad informática escalable en la AWS nube. Puede lanzar tantos servidores virtuales como necesite y escalarlos o reducirlos con rapidez.
Amazon Elastic Kubernetes Service (EKSAmazon) le ayuda a ejecutar AWS Kubernetes sin necesidad de instalar o mantener su propio plano de control o nodos de Kubernetes.
AWSIdentity and Access Management (IAM) le ayuda a administrar de forma segura el acceso a sus AWS recursos al controlar quién está autenticado y autorizado a usarlos.
Amazon Relational Database Service (RDSAmazon) le ayuda a configurar, operar y escalar una base de datos relacional en AWS la nube.
Amazon Simple Storage Service (Amazon S3) es un servicio de almacenamiento de objetos basado en la nube que le ayuda a almacenar, proteger y recuperar cualquier cantidad de datos.
Automatizar y herramientas
Para obtener herramientas adicionales, puede usar Cloudera Backup Data Recovery (BDR) AWS
, Snowball y AWSSnowmobile para ayudar a migrar los datos del entorno local CDH al hospedado. HDP CDP AWS CDP
Epics
Tarea | Descripción | Habilidades requeridas |
---|---|---|
Involucre al equipo de Cloudera. | Cloudera sigue un modelo de interacción estandarizado con sus clientes y puede trabajar con su integrador de sistemas (SI) para promover el mismo enfoque. Póngase en contacto con el equipo de atención al cliente de Cloudera para que le brinden orientación y los recursos técnicos necesarios para iniciar el proyecto. Ponerse en contacto con el equipo de Cloudera garantiza que todos los equipos necesarios puedan prepararse para la migración a medida que se acerque su fecha. Puede ponerse en contacto con los servicios profesionales de Cloudera para que su implementación de Cloudera pase de la fase piloto a la fase de producción rápidamente, a un costo menor y con el máximo rendimiento. Para obtener una lista completa de ofertas, consulte el sitio web de Cloudera | Líder de migración |
Cree un entorno de nube CDP pública AWS para su. VPC | Trabaje con los servicios profesionales de Cloudera o con su SI para planificar e implementar la nube CDP pública VPC en AWS una sola. | Arquitecto de nube, Cloudera SME |
Priorice y evalúe las cargas de trabajo para la migración. | Evalúe todas sus cargas de trabajo en las instalaciones para determinar cuáles son las más fáciles de migrar. Es mejor migrar primero a las aplicaciones que no son esenciales para la misión, ya que tendrán un impacto mínimo en sus clientes. Guarde las cargas de trabajo esenciales para el final, después de migrar correctamente otras cargas de trabajo. Nota: Las cargas de trabajo transitorias (ingeniería de CDP datos) son más fáciles de migrar que las cargas de trabajo persistentes (almacén de CDP datos). También es importante tener en cuenta el volumen y las ubicaciones de los datos al migrar. Los desafíos pueden incluir replicar los datos de forma continua desde un entorno en las instalaciones a la nube y cambiar los procesos de ingesta de datos para importarlos directamente a la nube. | Líder de migración |
Analice las CDH actividades de HDP migración CDP de aplicaciones antiguas y las ya existentes. | Considere y comience a planificar las siguientes actividades con Cloudera Workload Manager:
| Líder de migración |
Complete los requisitos y recomendaciones de Cloudera Replication Manager. | Trabaje con Cloudera Professional Services y su SI para prepararse para migrar las cargas de trabajo a su entorno de nube CDP pública. AWS Comprender los siguientes requisitos y recomendaciones puede ayudarle a evitar problemas comunes durante y después de instalar el servicio Replication Manager.
| Líder de migración |
Tarea | Descripción | Habilidades requeridas |
---|---|---|
Migre la primera carga de trabajo para entornos de desarrollo/pruebas con Cloudera Workload Manager. | Su SI puede ayudarlo a migrar su primera carga de trabajo a la AWS nube. Debe ser una aplicación que no esté orientada al cliente ni sea esencial para la misión. Las aplicaciones que contienen datos que la nube puede ingerir fácilmente, como las cargas de trabajo de ingeniería de datos, son las candidatas CDP ideales para la migración de desarrollo y pruebas. Se trata de una carga de trabajo transitoria a la que, por lo general, acceden menos usuarios, en comparación con una carga de trabajo persistente, como una carga de trabajo de almacén de CDP datos, que podría tener muchos usuarios que necesitan un acceso ininterrumpido. Las cargas de trabajo de ingeniería de datos no son persistentes, lo que minimiza el impacto empresarial en caso de que algo vaya mal. Sin embargo, estas tareas pueden ser fundamentales para los informes de producción, así que priorice primero las cargas de trabajo de ingeniería de datos de bajo impacto. | Líder de migración |
Repita los pasos de migración según sea necesario. | Cloudera Workload Manager ayuda a identificar las cargas de trabajo que mejor se adaptan a la nube. Proporciona métricas como las calificaciones de rendimiento de la nube, los planes de tamaño y capacidad para el entorno objetivo y los planes de replicación. Los mejores candidatos para la migración son las cargas de trabajo estacionales, los informes ad hoc y los trabajos intermitentes que no consumen muchos recursos. Cloudera Replication Manager mueve los datos en las instalaciones a la nube y de la nube a las instalaciones. Optimice de forma proactiva las cargas de trabajo, las aplicaciones, el rendimiento y la capacidad de la infraestructura para el almacenamiento de datos, la ingeniería de datos y el machine learning mediante Workload Manager. Para obtener una guía completa sobre cómo modernizar un data warehouse, consulte el sitio web de Cloudera. | Cloudera SME |
Recursos relacionados
Documentación de Cloudera:
AWSdocumentación: