AWS Glue에서 Apache Spark에 대한 생성형 AI 문제 해결 - AWS Glue

AWS Glue에서 Apache Spark에 대한 생성형 AI 문제 해결

Apache Spark 평가판의 생성형 AI 문제 해결은 AWS Glue 4.0에서 실행하는 작업과 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(오리건), 미국 서부(캘리포니아 북부), 유럽(아일랜드), 유럽(스톡홀름), 아시아 태평양(도쿄), 아시아 태평양(뭄바이), 아시아 태평양(시드니)과 같은 AWS 리전에서 사용할 수 있습니다. 평가판 기능은 변경될 수 있습니다.

AWS Glue에서 Apache Spark 작업에 대한 생성형 AI 문제 해결은 데이터 엔지니어와 과학자는 Spark 애플리케이션에서 문제를 쉽게 진단하고 수정할 수 있는 새로운 기능입니다. 이 기능은 기계 학습 및 생성형 AI 기술을 활용하여 Spark 작업의 문제를 분석하고 이러한 문제를 해결하기 위한 실행 가능한 권장 사항과 함께 자세한 근본 원인 분석을 제공합니다.

Apache Spark에 대한 생성형 AI 문제 해결은 어떻게 작동하나요?

실패한 Spark 작업에 대해 생성형 AI 문제 해결은 작업 메타데이터와 작업의 오류 서명과 연결된 정확한 지표 및 로그를 분석하여 근본 원인 분석을 생성하고 작업 실패를 해결하는 데 도움이 되는 특정 솔루션과 모범 사례를 권장합니다.

작업과 관련해 Apache Spark에 대한 생성형 AI 문제 해결 설정

참고

이 기능은 평가판 중에 처음 30분 동안의 실행 시간 이내에 실패한 AWS Glue 4.0 작업 문제를 해결하는 데 도움이 됩니다.

IAM 권한 구성

AWS Glue의 작업에 대해 Spark 문제 해결이 사용하는 API에 권한을 부여하려면 적절한 IAM 권한이 필요합니다. 다음과 같은 사용자 지정 AWS 정책을 IAM ID(예: 사용자, 역할 또는 그룹)에 연결하여 권한을 확보할 수 있습니다.

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "glue:StartCompletion", "glue:GetCompletion" ], "Resource": [ "arn:aws:glue:*:*:completion/*" ] } ] }
참고

평가판 중에 Spark 문제 해결에는 프로그래밍 방식으로 사용할 수 있는 AWS SDK를 통해 사용 가능한 API가 없습니다. AWS Glue Studio 콘솔을 통해 이 환경을 활성화하기 위해 IAM 정책에서 StartCompletionGetCompletion과 같은 두 가지 API가 사용됩니다.

권한 할당

액세스 권한을 제공하려면 사용자, 그룹 또는 역할에 권한을 추가하세요:

  • IAM Identity Center에서 사용자 및 그룹의 경우: 권한 세트를 생성합니다. IAM Identity Center 사용 설명서의 권한 세트 생성의 지침을 따릅니다.

  • ID 제공업체를 통해 IAM에서 관리되는 사용자의 경우: ID 페더레이션을 위한 역할을 생성합니다. IAM 사용 설명서의 타사 ID 제공업체의 역할 생성(페더레이션)의 지침을 따릅니다.

  • IAM 사용자의 경우: 사용자가 수임할 수 있는 역할을 생성합니다. IAM 사용 설명서의 IAM 사용자 역할 생성의 지침을 따릅니다.

실패한 작업 실행에서 문제 해결 분석 실행

AWS Glue 콘솔의 여러 경로를 통해 문제 해결 기능에 액세스할 수 있습니다. 시작하는 방법은 다음과 같습니다.

옵션 1: 작업 목록 페이지에서

  1. https://console.aws.amazon.com/glue/에서 AWS Glue 콘솔을 엽니다.

  2. 탐색 창에서 ETL 작업을 선택하세요.

  3. 작업 목록에서 실패한 작업을 찾으세요.

  4. 작업 세부 정보 섹션에서 실행 탭을 선택하세요.

  5. 분석하려는 실패한 작업 실행을 클릭하세요.

  6. AI를 사용하여 문제 해결을 선택하여 분석을 시작하세요.

  7. 문제 해결 분석이 완료되면 화면 하단의 문제 해결 분석 탭에서 근본 원인 분석 및 권장 사항을 볼 수 있습니다.

GIF에서는 실패한 실행의 엔드투엔드 구현과 AI 기능이 실행 중인 문제 해결을 보여줍니다.

옵션 2: 작업 실행 모니터링 페이지 사용

  1. 작업 실행 모니터링 페이지로 이동하세요.

  2. 실패한 작업 실행을 찾으세요.

  3. 드롭다운 메뉴에서 작업을 선택하세요.

  4. AI를 사용하여 문제 해결을 선택하세요.

GIF에서는 실패한 실행의 엔드투엔드 구현과 AI 기능이 실행 중인 문제 해결을 보여줍니다.

옵션 3: 작업 실행 세부 정보 페이지에서

  1. 실행 탭에서 실패한 실행의 세부 정보 보기를 클릭하거나 작업 실행 모니터링 페이지에서 작업 실행을 선택하여 실패한 작업 실행의 세부 정보 페이지로 이동하세요.

  2. 작업 실행 세부 정보 페이지에서 문제 해결 분석 탭을 찾으세요.

지원되는 문제 해결 카테고리(평가판)

이 서비스는 데이터 엔지니어와 개발자가 Spark 애플리케이션에서 자주 접하는 세 가지 주요 카테고리의 문제에 중점을 둡니다.

  • 리소스 설정 및 액세스 오류: AWS Glue에서 Spark 애플리케이션을 실행하는 경우 리소스 설정 및 액세스 오류는 가장 흔하지만 진단하기 어려운 문제 중 하나입니다. 이러한 오류는 Spark 애플리케이션에서 AWS 리소스와 상호 작용하려고 시도하지만 권한 문제, 리소스 누락 또는 구성 문제가 나타날 때 종종 발생합니다.

  • Spark 드라이버 및 실행기 메모리 문제: Apache Spark 작업에서 메모리 관련 오류는 진단 및 해결이 복잡할 수 있습니다. 이러한 오류는 데이터 처리 요구 사항이 드라이버 노드 또는 실행기 노드에서 사용 가능한 메모리 리소스를 초과할 때 종종 발생합니다.

  • Spark 디스크 용량 문제: AWS Glue Spark 작업의 스토리지 관련 오류는 셔플 작업, 데이터 유출 또는 대규모 데이터 변환 처리 중에 종종 발생합니다. 이러한 오류는 한동안 작업이 실행될 때까지 명확히 드러나지 않으므로 귀중한 컴퓨팅 시간과 리소스가 낭비될 수 있어서 특히 처리하기 까다로울 수 있습니다.

참고

프로덕션 환경에서 제안된 변경 사항을 구현하기 전에 제안된 변경 사항을 철저히 검토합니다. 이 서비스에서는 패턴과 모범 사례를 기반으로 권장 사항을 제공하지만 특정 사용 사례에는 추가 고려 사항이 필요할 수 있습니다.