Requisitos previos para utilizar Apache Hadoop como origen Permisos para Hive como origen Permisos para HDFS como fuente Permisos para HDFS como objetivo Conexión a Apache Hadoop como origen Conectarse a Hive y HDFS Conectarse a Amazon EMR como objetivo

Conectarse a las bases de datos de Apache Hadoop con el AWS Schema Conversion Tool

Puede usar la interfaz de línea de AWS SCT comandos (CLI) para migrar de Apache Hadoop a Amazon. EMR AWS SCT utiliza su bucket de Amazon S3 como almacenamiento temporal para sus datos durante la migración.

AWS SCT admite como fuente Apache Hadoop versión 2.2.0 y superior. Además, AWS SCT es compatible con la versión 0.13.0 y superior de Apache Hive.

AWS SCT admite como destino la EMR versión 6.3.0 y superior de Amazon. Además, AWS SCT admite como destino Apache Hadoop versión 2.6.0 y superior y Apache Hive versión 0.13.0 y superior.

Temas

Requisitos previos para utilizar Apache Hadoop como origen
Permisos para usar Hive como origen
Permisos para HDFS su uso como fuente
Permisos para su uso HDFS como objetivo
Conexión a Apache Hadoop como origen
Conectarse a su Hive y sus servicios de origen HDFS
Conectarse a Amazon EMR como objetivo

Requisitos previos para utilizar Apache Hadoop como origen

Se requieren los siguientes requisitos previos para conectarse a Apache Hadoop con el. AWS SCT CLI

Cree un bucket de Amazon S3 para almacenar datos durante la migración. A continuación, puede copiar los datos a Amazon EMR HDFS o utilizar Amazon S3 como repositorio de datos para sus cargas de trabajo de Hadoop. Para obtener más información, consulte Crear un bucket en la Guía del usuario de Amazon S3.
Cree un rol AWS Identity and Access Management (IAM) con la política. AmazonS3FullAccess AWS SCT utiliza este IAM rol para acceder a su bucket de Amazon S3.
Anote su clave AWS secreta y su clave de acceso AWS secreta. Para obtener más información sobre las claves de AWS acceso, consulte Administrar las claves de acceso en la Guía del IAM usuario.
Crea y configura un EMR clúster de Amazon de destino. Para obtener más información, consulta Cómo empezar a usar Amazon EMR en la Guía EMR de administración de Amazon.
Instale la utilidad distcp en el clúster Apache Hadoop de origen. Además, instala la s3-dist-cp utilidad en el EMR clúster de Amazon de destino. Asegúrese de que los usuarios de la base de datos tengan permisos para ejecutar estas utilidades.
Configure el archivo core-site.xml en el clúster de Hadoop de origen para usar el protocolo s3a. Para ello, establezca el parámetro fs.s3a.aws.credentials.provider en uno de los siguientes valores.
- org.apache.hadoop.fs.s3a.TemporaryAWSCredentialsProvider
- org.apache.hadoop.fs.s3a.SimpleAWSCredentialsProvider
- org.apache.hadoop.fs.s3a.AnonymousAWSCredentialsProvider
- org.apache.hadoop.fs.s3a.auth.AssumedRoleCredentialProvider
Puede agregar el siguiente código de ejemplo al archivo core-site.xml.
```
<property>
  <name>fs.s3a.aws.credentials.provider</name>
  <value>org.apache.hadoop.fs.s3a.SimpleAWSCredentialsProvider</value>
</property>
```
El ejemplo anterior muestra una de las cuatro opciones de la lista anterior. Si no estableces el fs.s3a.aws.credentials.provider parámetro en el core-site.xml archivo, AWS SCT elige el proveedor automáticamente.

Permisos para usar Hive como origen

Los permisos necesarios para un usuario de Hive como origen son los siguientes:

Acceso READ a las carpetas de datos de origen y al bucket de Amazon S3 de origen
Acceso READ+WRITE a los buckets de Amazon S3 intermedio y de destino

Para aumentar la velocidad de migración, le recomendamos que ejecute la compactación de las tablas ACID de origen transaccionales.

Los permisos necesarios para un usuario objetivo de Amazon EMR Hive son los siguientes:

Acceso READ al bucket de Amazon S3 de destino
Acceso READ+WRITE al bucket de Amazon S3 intermedio
READ+WRITEacceso a las carpetas de destino HDFS

Permisos para HDFS su uso como fuente

Los permisos necesarios para HDFS ser fuente son los siguientes:

EXECUTEpara NameNode
EXECUTE+READ para todas las carpetas y archivos de origen que incluya en el proyecto de migración
READ+WRITEpara el tmp directorio en el NameNode que se ejecutarán los trabajos de Spark y se almacenarán los archivos antes de la migración a Amazon S3

EnHDFS, todas las operaciones requieren acceso transversal. El acceso transversal exige el permiso EXECUTE de todos los componentes existentes de la ruta, excepto el componente final de la ruta. Por ejemplo, para que cualquier operación acceda a /foo/bar/baz, el usuario debe tener permiso EXECUTE acceder a /, /foo y /foo/bar.

El siguiente ejemplo de código muestra cómo conceder permisos EXECUTE+READ para las carpetas y archivos de origen y permisos READ+WRITE para el directorio tmp.


hadoop fs –chmod –R 744 /user/hdfs-data
hadoop fs –chmod –R 766 /tmp

Permisos para su uso HDFS como objetivo

Los permisos necesarios para Amazon EMR HDFS como objetivo son los siguientes:

EXECUTEpara el EMR clúster NameNode de Amazon de destino
READ+WRITEpara las HDFS carpetas de destino en las que almacenará los datos tras la migración

Conexión a Apache Hadoop como origen

Puede utilizar Apache Hadoop como fuente en la AWS SCT versión 1.0.670 o superior. Puede migrar los clústeres de Hadoop a Amazon EMR solo en la interfaz de línea de AWS SCT comandos ()CLI. Antes de empezar, familiarícese con la interfaz de la línea de comandos de AWS SCT. Para obtener más información, consulte CLIReferencia para AWS Schema Conversion Tool.

Para conectarse a Apache Hadoop en el AWS SCT CLI

Cree un AWS SCT CLI script nuevo o edite una plantilla de escenario existente. Por ejemplo, puede descargar y editar la plantilla de HadoopMigrationTemplate.scts. Para obtener más información, consulte Obtener CLI escenarios.
Configure los ajustes de la AWS SCT aplicación, como la ubicación del controlador y la carpeta de registro.

Descargue el JDBC controlador necesario y especifique la ubicación en la que va a almacenar el archivo. Para obtener más información, consulte Instalación de JDBC controladores para AWS Schema Conversion Tool.

En el siguiente ejemplo de código, se muestra cómo agregar la ruta de acceso al controlador de Apache Hive. Tras ejecutar este ejemplo de código, AWS SCT guarda los archivos de registro en la c:\sct carpeta.
```
SetGlobalSettings
    -save: 'true'
    -settings: '{
        "hive_driver_file": "c:\\sct\\HiveJDBC42.jar",
        "log_folder": "c:\\sct",
        "console_log_folder": "c:\\sct"
    }'
/
```
Puede usar este ejemplo y los ejemplos siguientes en Windows.
Crea un AWS SCT proyecto nuevo.

El siguiente ejemplo de código crea el proyecto de hadoop_emr en la carpeta c:\sct.
```
CreateProject
    -name: 'hadoop_emr'
    -directory: 'c:\sct'
/
```
Agregue su clúster de Hadoop de origen al proyecto.

Utilice el comando AddSourceCluster para conectarse al clúster de Hadoop de origen. Proporcione valores para los siguientes parámetros obligatorios: name, host, port y user. El resto de los parámetros son opcionales.

El siguiente ejemplo de código agrega el clúster de Hadoop de origen. En este ejemplo, HADOOP_SOURCE se establece como el nombre del clúster de origen. Utilice este nombre de objeto para añadir Hive y HDFS servicios al proyecto y crear reglas de mapeo.
```
AddSourceCluster
    -name: 'HADOOP_SOURCE'
    -vendor: 'HADOOP'
    -host: 'hadoop_address'
    -port: '22'
    -user: 'hadoop_user'
    -password: 'hadoop_password'
    -useSSL: 'true'
    -privateKeyPath: 'c:\path\name.pem'
    -passPhrase: 'hadoop_passphrase'
/
```
En el ejemplo anterior, sustituya hadoop_address por la dirección IP de su clúster de Hadoop. Si es necesario, configure el valor de la opción de puerto. A continuación, sustituya hadoop_user y hadoop_password con el nombre de su usuario de Hadoop y la contraseña de este usuario. En path\name, introduzca el nombre y la ruta del PEM archivo del clúster de Hadoop de origen.
Guarde el scriptCLI. A continuación, añada la información de conexión de su Hive y sus HDFS servicios.

Conectarse a su Hive y sus servicios de origen HDFS

Puede conectarse a su Hive y a sus HDFS servicios de origen con el. AWS SCT CLI Para conectarse a Apache Hive, utilice la versión 2.3.4 o superior del JDBC controlador Hive. Para obtener más información, consulte Instalación de JDBC controladores para AWS Schema Conversion Tool.

AWS SCT se conecta a Apache Hive con el usuario del clúster. hadoop Para ello, utilice los comandos AddSourceClusterHive y AddSourceClusterHDFS. Puede utilizar una de las siguientes opciones.

Cree un SSH túnel nuevo.

En createTunnel, introduzca true. Para host ello, introduzca la dirección IP interna de su Hive o HDFS servicio de origen. Paraport, introduzca el puerto de servicio de su Hive o HDFS servicio.

A continuación, introduzca su Hive o HDFS las credenciales de user y. password Para obtener más información sobre SSH los túneles, consulte Configurar un SSH túnel hacia el nodo principal mediante el reenvío de puertos locales en la Amazon EMR Management Guide.
Utilice un SSH túnel existente.

En host, introduzca localhost. Para elloport, introduzca el puerto local a partir de los parámetros SSH del túnel.
Conéctese directamente a su Hive y a sus HDFS servicios.

Para ellohost, introduzca la dirección IP o el nombre de host de su Hive o servicio de origen. HDFS Paraport, introduzca el puerto de servicio de su Hive o servicio. HDFS A continuación, introduzca su Hive o HDFS las credenciales de user y. password

Para conectarse a Hive y en el HDFS AWS SCT CLI

Abra el CLI script que incluye la información de conexión del clúster Hadoop de origen. Utilice el nombre del clúster de Hadoop que definió en el paso anterior.
Agregue su servicio Hive de origen al proyecto.

Use el comando AddSourceClusterHive para conectar el servicio Hive de origen. Proporcione valores para los siguientes parámetros obligatorios: user, password, cluster, name y port. El resto de los parámetros son opcionales.

El siguiente ejemplo de código crea un túnel AWS SCT para que funcione con el servicio Hive. Este servicio Hive de origen se ejecuta en el mismo equipo que AWS SCT. En este ejemplo se utiliza el clúster de origen de HADOOP_SOURCE del ejemplo anterior.
```
AddSourceClusterHive
    -cluster: 'HADOOP_SOURCE'
    -name: 'HIVE_SOURCE'
    -host: 'localhost'
    -port: '10005'
    -user: 'hive_user'
    -password: 'hive_password'
    -createTunnel: 'true'
    -localPort: '10005'
    -remoteHost: 'hive_remote_address'
    -remotePort: 'hive_port'
/
```
El siguiente ejemplo de código conecta su servicio Hive sin un túnel.
```
AddSourceClusterHive
    -cluster: 'HADOOP_SOURCE'
    -name: 'HIVE_SOURCE'
    -host: 'hive_address'
    -port: 'hive_port'
    -user: 'hive_user'
    -password: 'hive_password'
/
```
En los ejemplos anteriores, sustituya hive_user y hive_password por el nombre de su usuario de Hive y la contraseña de este usuario.

A continuación, sustituya hive_address y hive_port con la dirección NameNode IP y el puerto del clúster Hadoop de origen.

En hive_remote_address, puede usar el valor predeterminado 127.0.0.1 o la dirección NameNode IP del servicio Hive de origen.
Agrega tu HDFS servicio de origen al proyecto.

Utilice el AddSourceClusterHDFS comando para conectar el HDFS servicio de origen. Proporcione valores para los siguientes parámetros obligatorios: user, password, cluster, name y port. El resto de los parámetros son opcionales.

Asegúrese de que el usuario tiene los permisos necesarios para migrar los datos del HDFS servicio de origen. Para obtener más información, consulte Permisos para usar Hive como origen.

El siguiente ejemplo de código crea un túnel AWS SCT para que funcione con el HDFS servicio Apache. En este ejemplo, se utiliza el clúster de origen de HADOOP_SOURCE que creó anteriormente.
```
AddSourceClusterHDFS
    -cluster: 'HADOOP_SOURCE'
    -name: 'HDFS_SOURCE'
    -host: 'localhost'
    -port: '9005'
    -user: 'hdfs_user'
    -password: 'hdfs_password'
    -createTunnel: 'true'
    -localPort: '9005'
    -remoteHost: 'hdfs_remote_address'
    -remotePort: 'hdfs_port'
/
```
El siguiente código se conecta a su HDFS servicio de Apache sin un túnel.
```
AddSourceClusterHDFS
    -cluster: 'HADOOP_SOURCE'
    -name: 'HDFS_SOURCE'
    -host: 'hdfs_address'
    -port: 'hdfs_port'
    -user: 'hdfs_user'
    -password: 'hdfs_password'
/
```
En los ejemplos anteriores, sustituya hdfs_user y hdfs_password por el nombre de su HDFS usuario y la contraseña de este usuario.

A continuación, sustituya hdfs_address y hdfs_port con la dirección NameNode IP y el puerto del clúster Hadoop de origen.

En hdfs_remote_address, puede usar el valor predeterminado 127.0.0.1 o la dirección NameNode IP del servicio Hive de origen.
Guarde el CLI script. A continuación, añade la información de conexión del EMR clúster de Amazon de destino y los comandos de migración.

Conectarse a Amazon EMR como objetivo

Puedes conectarte a tu EMR clúster de Amazon de destino con el AWS SCT CLI. Para ello, autorizas el tráfico entrante y su usoSSH. En este caso, AWS SCT tiene todos los permisos necesarios para trabajar con tu EMR clúster de Amazon. Para obtener más información, consulte Antes de conectarse y Conectarse al nodo principal mediante SSH la Guía de EMR administración de Amazon.

AWS SCT se conecta a Amazon EMR Hive con el usuario del hadoop clúster. Para conectarse a Amazon EMR Hive, utilice el JDBC controlador Hive versión 2.6.2.1002 o superior. Para obtener más información, consulte Instalación de JDBC controladores para AWS Schema Conversion Tool.

Para conectarse a Amazon EMR en el AWS SCT CLI

Abra el CLI script que incluye la información de conexión del clúster Hadoop de origen. Añade las EMR credenciales de Amazon de destino a este archivo.
Añade tu EMR clúster de Amazon objetivo al proyecto.

En el siguiente ejemplo de código se añade el EMR clúster de Amazon de destino. En este ejemplo HADOOP_TARGET se establece el nombre del clúster de destino. Utilice este nombre de objeto para añadir su Hive y sus HDFS servicios y una carpeta de bucket de Amazon S3 al proyecto y crear reglas de mapeo.
```
AddTargetCluster
	-name: 'HADOOP_TARGET'
	-vendor: 'AMAZON_EMR'
	-host: 'ec2-44-44-55-66.eu-west-1.EXAMPLE.amazonaws.com'
	-port: '22'
	-user: 'emr_user'
	-password: 'emr_password'
	-useSSL: 'true'
	-privateKeyPath: 'c:\path\name.pem'
	-passPhrase: '1234567890abcdef0!'
	-s3Name: 'S3_TARGET'
	-accessKey: 'AKIAIOSFODNN7EXAMPLE'
	-secretKey: 'wJalrXUtnFEMI/K7MDENG/bPxRfiCYEXAMPLEKEY'
	-region: 'eu-west-1'
	-s3Path: 'doc-example-bucket/example-folder'
/
```
En el ejemplo anterior, introduce los nombres de tus AWS recursos y la información de EMR conexión a Amazon. Esto incluye la dirección IP del EMR clúster de Amazon, la clave de AWS acceso, la clave de acceso AWS secreta y el bucket de Amazon S3. Si es necesario, configure el valor de la variable de puerto. A continuación, sustituya emr_user y emr_password con el nombre de tu EMR usuario de Amazon y la contraseña de este usuario. En path\name, introduce el nombre y la ruta del PEM archivo del EMR clúster de Amazon de destino. Para obtener más información, consulte Descargar PEM el archivo para acceder al EMR clúster.
Agregue su bucket de Amazon S3 al proyecto.

El siguiente ejemplo de código agrega el bucket de Amazon S3 de destino. En este ejemplo, se utiliza el clúster de HADOOP_TARGET que creó anteriormente.
```
AddTargetClusterS3
	-cluster: 'HADOOP_TARGET'
	-Name: 'S3_TARGET'
	-accessKey: 'AKIAIOSFODNN7EXAMPLE'
	-secretKey: 'wJalrXUtnFEMI/K7MDENG/bPxRfiCYEXAMPLEKEY'
	-region: 'eu-west-1'
	-s3Path: 'doc-example-bucket/example-folder'
/
```
En el ejemplo anterior, introduzca la clave de AWS acceso, la clave de acceso AWS secreta y el bucket de Amazon S3.
Agregue su servicio Hive de destino al proyecto.

El siguiente ejemplo de código crea un túnel AWS SCT para que funcione con el servicio Hive de destino. En este ejemplo, se utiliza el clúster de HADOOP_TARGET de destino que creó anteriormente.
```
AddTargetClusterHive
    -cluster: 'HADOOP_TARGET'
    -name: 'HIVE_TARGET'
    -host: 'localhost'
    -port: '10006'
    -user: 'hive_user'
    -password: 'hive_password'
    -createTunnel: 'true'
    -localPort: '10006'
    -remoteHost: 'hive_address'
    -remotePort: 'hive_port'
/
```
En el ejemplo anterior, sustituya hive_user y hive_password por el nombre de su usuario de Hive y la contraseña de este usuario.

A continuación, sustituya hive_address con el valor predeterminado 127.0.0.1 o con la dirección NameNode IP del servicio Hive de destino. A continuación, sustituya hive_port con el puerto del servicio Hive de destino.
Añada su HDFS servicio de destino al proyecto.

El siguiente ejemplo de código crea un túnel AWS SCT para que funcione con el HDFS servicio de Apache. En este ejemplo, se utiliza el clúster de HADOOP_TARGET de destino que creó anteriormente.
```
AddTargetClusterHDFS
    -cluster: 'HADOOP_TARGET'
    -name: 'HDFS_TARGET'
    -host: 'localhost'
    -port: '8025'
    -user: 'hdfs_user'
    -password: 'hdfs_password'
    -createTunnel: 'true'
    -localPort: '8025'
    -remoteHost: 'hdfs_address'
    -remotePort: 'hdfs_port'
/
```
En el ejemplo anterior, sustituya hdfs_user y hdfs_password por el nombre de su HDFS usuario y la contraseña de este usuario.

A continuación, sustituya hdfs_address y hdfs_port con la dirección IP privada y el puerto NameNode del HDFS servicio de destino.
Guarda tu CLI script. A continuación, agregue reglas de asignación y comandos de migración. Para obtener más información, consulte Migración de cargas de trabajo de Hadoop.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Conexión a Apache Cassandra

Conexión a Apache Oozie