AWS Glue 대화형 세션을 사용한 데이터 준비 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

AWS Glue 대화형 세션을 사용한 데이터 준비

AWS Glue 대화형 세션은 데이터 레이크 및 데이터 파이프라인에 저장할 데이터를 수집, 변환, 정리 및 준비하기 위해 사용할 수 있는 서버리스 서비스입니다. AWS Glue 대화형 세션은 복잡한 컴퓨팅 클러스터 인프라를 프로비저닝하고 관리할 필요 없이 전용 데이터 처리 장치(DPU)에서 몇 초 만에 초기화할 수 있는 온디맨드 서버리스 Apache Spark 런타임 환경을 제공합니다. 초기화 후 Studio 또는 Studio Classic 노트북에서 바로 AWS Glue 데이터 카탈로그를 검색하고, 대규모 쿼리를 실행하고 AWS Lake Formation,에서 관리하는 데이터에 액세스하고, Spark를 사용하여 대화형으로 데이터를 분석하고 준비할 수 있습니다. 그런 다음 준비된 데이터를 사용하여 SageMaker Studio 또는 Studio Classic 내에서 특별히 구축된 ML 도구를 사용하여 모델을 훈련, 조정 및 배포할 수 있습니다. 구성 가능성과 유연성을 중간 수준으로 제어하는 서버리스 Spark 서비스를 원하는 경우 데이터 준비 워크로드에 대해 AWS Glue 대화형 세션을 고려해야 합니다.

Studio 또는 Studio Classic에서 JupyterLab 노트북을 시작하여 AWS Glue 대화형 세션을 시작할 수 있습니다. 노트북을 시작할 때 기본 제공 Glue PySpark and Ray 또는 Glue Spark 커널을 선택하세요. 그러면 대화형 서버리스 Spark 세션이 자동으로 시작됩니다. 컴퓨팅 클러스터 또는 인프라를 프로비저닝하거나 관리할 필요가 없습니다. 초기화 후 Studio 또는 Studio Classic 노트북 내에서 데이터를 탐색하고 상호 작용할 수 있습니다.

Studio 또는 Studio Classic에서 AWS Glue 대화형 세션을 시작하기 전에 적절한 역할 및 정책을 설정해야 합니다. 또한 스토리지 Amazon S3 버킷과 같은 추가 리소스에 대한 액세스 권한을 제공해야 할 수 있습니다. 필수 IAM 정책에 관한 자세한 내용은 Studio 또는 Studio Classic의 AWS Glue 대화형 세션에 대한 권한 섹션을 참조하세요.

Studio 및 Studio Classic은 AWS Glue 대화형 세션에 대한 기본 구성을 제공하지만, Jupyter 매직 명령의 AWS Glue전체 카탈로그를 사용하여 환경을 추가로 사용자 지정할 수 있습니다. AWS Glue 대화형 세션에서 사용할 수 있는 기본 및 추가 Jupyter 매직에 대한 자세한 내용은 섹션을 참조하세요Studio 또는 Studio Classic에서 AWS Glue 대화형 세션 구성.

  • AWS Glue 대화형 세션을 시작하는 Studio Classic 사용자의 경우 다음 이미지 및 커널 중에서 선택할 수 있습니다.

    • 이미지: SparkAnalytics 1.0, SparkAnalytics 2.0

    • 커널: Glue Python [PySpark and Ray]Glue Spark

  • Studio 사용자의 경우 기본 SageMaker 배포 이미지를 사용하고 Glue Python [PySpark and Ray] 또는 Glue Spark 커널을 선택합니다.