AWS Data Pipeline을 사용하여 반복 Amazon EMR 클러스터 자동화

AWS Data Pipeline은 데이터의 이동과 변환을 자동화하는 서비스입니다. 이를 사용하여 입력 데이터를 Amazon S3로 이동하도록 예약하고, 실행 중인 클러스터가 해당 데이터를 처리하도록 예약할 수 있습니다. 예를 들어, 트래픽 로그를 기록하는 웹 서버가 있는 경우를 고려해보십시오. 주별 클러스터를 실행하여 트래픽 데이터를 분석하려면 AWS Data Pipeline을 사용하여 해당 클러스터를 예약하십시오. AWS Data Pipeline은 데이터 기반 워크플로이므로 하나의 작업(클러스터 시작)이 다른 작업(입력 데이터를 Amazon S3으로 이동)에 종속될 수 있습니다. 또한 강력한 재시도 기능을 제공합니다.

AWS Data Pipeline에 대한 자세한 내용은 AWS Data Pipeline 개발자 안내서, 특히 Amazon EMR 관련 자습서를 참조하세요.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

클러스터 복제

Amazon EMR 클러스터 문제 해결