Cómo configurar una ubicación para la salida del clúster de Amazon EMR - Amazon EMR

Cómo configurar una ubicación para la salida del clúster de Amazon EMR

El formato de salida más común de un clúster de Amazon EMR son los archivos de texto, ya sea comprimidos o sin comprimir. Normalmente, están escritos en un bucket de Amazon S3. Este bucket se debe crear antes de lanzar el clúster. Puede especificar el bucket de S3 como ubicación de salida al lanzar el clúster.

Para obtener más información, consulte los temas siguientes:

Creación y configuración de un bucket de Amazon S3

Amazon EMR (Amazon EMR) utiliza Amazon S3 para almacenar datos de entrada y de salida, y archivos de registro. Amazon S3 denomina estas ubicaciones de almacenamiento buckets. Los buckets tienen ciertas restricciones y limitaciones para cumplir con los requisitos de Amazon S3 y DNS. Para obtener más información, consulte Restricciones y limitaciones de los buckets en la Guía para desarrolladores de Amazon Simple Storage Service.

Para crear un bucket de Amazon S3, siga las instrucciones que se muestran en Creación de un bucket en la Guía del usuario de Amazon Simple Storage Service.

nota

Si habilita el registro en el asistente de Crear un bucket, solo se habilitan los registros de acceso al bucket, no los registros del clúster.

nota

Para más información acerca de cómo especificar buckets específicos de una región, consulte Buckets y regiones en la Guía para desarrolladores de Amazon Simple Storage Service y Puntos de conexión de región disponibles para los SDK de AWS.

Después de crear su bucket, puede definir los permisos correspondientes. Lo habitual es que se conceda (el propietario) acceso de lectura y escritura. Se recomienda encarecidamente que siga las prácticas recomendadas de seguridad para Amazon S3 al configurar su bucket.

Los buckets de Amazon S3 necesarios deben existir para poder crear un clúster. Debe cargar en Amazon S3 todos los scripts o datos necesarios a los que se hace referencia en el clúster. En la siguiente tabla se describen ubicaciones de ejemplo de datos, scripts y archivos de registro.

Información Ejemplo de ubicación en Amazon S3
script o programa s3://amzn-s3-demo-bucket1/script/MapperScript.py
archivos de registro s3://amzn-s3-demo-bucket1/logs
datos de entrada s3://amzn-s3-demo-bucket1/input
datos de salida s3://amzn-s3-demo-bucket1/output