SageMaker Ejemplos de Spark para Python (PySpark) - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

SageMaker Ejemplos de Spark para Python (PySpark)

Amazon SageMaker proporciona una biblioteca Python de Apache Spark (SageMaker PySpark) que puede utilizar para integrar sus aplicaciones de Apache Spark SageMaker. Por ejemplo, puede usar Apache Spark para el preprocesamiento de datos y SageMaker para el entrenamiento y el alojamiento de modelos. Para obtener información sobre la biblioteca SageMaker Apache Spark, consulteUsa Apache Spark con Amazon SageMaker.

Descarga PySpark

Puedes descargar el código fuente de las bibliotecas Python Spark (PySpark) y Scala desde el GitHub repositorio de SageMaker Spark.

Para obtener instrucciones sobre cómo instalar la biblioteca de SageMaker Spark, usa cualquiera de las siguientes opciones o visita SageMaker PySpark.

  • Instálala mediante pip:

    pip install sagemaker_pyspark
  • Instale desde la fuente:

    git clone git@github.com:aws/sagemaker-spark.git cd sagemaker-pyspark-sdk python setup.py install
  • También puedes crear un bloc de notas nuevo en una instancia de bloc de notas que utilice el núcleo Sparkmagic (PySpark) o el Sparkmagic (PySpark3) núcleo y conectarlo a un EMR clúster remoto de Amazon.

    nota

    El EMR clúster de Amazon debe configurarse con un IAM rol que tenga la AmazonSageMakerFullAccess política adjunta. Para obtener información sobre la configuración de funciones para un EMR clúster, consulte Configurar IAM funciones para EMR los permisos de Amazon a los AWS servicios en la Guía EMR de administración de Amazon.

PySpark ejemplos

Para ver ejemplos de uso SageMaker PySpark, consulte:

Para ejecutar los cuadernos en una instancia de cuaderno, consulte Ejemplo de cuadernos. Para ejecutar los cuadernos en Studio, consulte Crear o abrir un bloc de notas Amazon SageMaker Studio Classic.