AWS Data Pipeline을 사용하여 반복 Amazon EMR 클러스터 자동화 - Amazon EMR

AWS Data Pipeline을 사용하여 반복 Amazon EMR 클러스터 자동화

AWS Data Pipeline은 데이터의 이동과 변환을 자동화하는 서비스입니다. 이를 사용하여 입력 데이터를 Amazon S3로 이동하도록 예약하고, 실행 중인 클러스터가 해당 데이터를 처리하도록 예약할 수 있습니다. 예를 들어, 트래픽 로그를 기록하는 웹 서버가 있는 경우를 고려해보십시오. 주별 클러스터를 실행하여 트래픽 데이터를 분석하려면 AWS Data Pipeline을 사용하여 해당 클러스터를 예약하십시오. AWS Data Pipeline은 데이터 기반 워크플로이므로 하나의 작업(클러스터 시작)이 다른 작업(입력 데이터를 Amazon S3으로 이동)에 종속될 수 있습니다. 또한 강력한 재시도 기능을 제공합니다.

AWS Data Pipeline에 대한 자세한 내용은 AWS Data Pipeline 개발자 안내서, 특히 Amazon EMR 관련 자습서를 참조하세요.