SageMaker AI Spark for Python(PySpark) 예제를 사용하기 위한 리소스 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

SageMaker AI Spark for Python(PySpark) 예제를 사용하기 위한 리소스

Amazon SageMaker AI는 Apache Spark 애플리케이션을 SageMaker AI와 통합하는 데 사용할 수 있는 Apache Spark Python 라이브러리(SageMaker AI PySpark)를 제공합니다. SageMaker 이 주제에는 PySpark를 시작하는 데 도움이 되는 예시가 포함되어 있습니다. SageMaker AI Apache Spark 라이브러리에 대한 자세한 내용은 섹션을 참조하세요Amazon SageMaker AI를 사용한 Apache Spark.

PySpark 다운로드

SageMaker AI Spark GitHub 리포지토리에서 Python Spark(PySpark) 및 Scala 라이브러리 모두에 대한 소스 코드를 다운로드할 수 있습니다.

SageMaker AI Spark 라이브러리 설치에 대한 지침은 다음 옵션을 사용하거나 SageMaker AI PySpark를 참조하세요.

  • pip를 사용하여 설치:

    pip install sagemaker_pyspark
  • 소스에서 설치:

    git clone git@github.com:aws/sagemaker-spark.git cd sagemaker-pyspark-sdk python setup.py install
  • 노트북 인스턴스에서 Sparkmagic (PySpark) 또는 Sparkmagic (PySpark3) 커널을 사용하는 새 노트북을 만들고 원격 Amazon EMR 클러스터에 연결할 수도 있습니다.

    참고

    Amazon EMR 클러스터는 AmazonSageMakerFullAccess 정책이 연결된 IAM 역할을 사용해 구성해야 합니다. EMR 클러스터의 역할을 구성하는 방법에 대한 자세한 내용은 Amazon EMR 관리 안내서의 AWS 서비스에 대한 Amazon EMR 권한에 대한 IAM 역할 구성을 참조하세요.

PySpark 예시

SageMaker AI PySpark 사용에 대한 예제는 다음을 참조하세요.

노트북 인스턴스에서 노트북을 실행하려면 예시 노트북 액세스 섹션을 참조하세요. Studio에서 노트북을 실행하려면 Amazon SageMaker Studio Classic 노트북 만들기 또는 열기 섹션을 참조하세요.