Task Runner를 사용하여 기존 리소스에서 작업 실행 - AWS Data Pipeline

AWS Data Pipeline 신규 고객은 더 이상 이용할 수 없습니다. 의 기존 고객은 정상적으로 서비스를 계속 이용할 AWS Data Pipeline 수 있습니다. 자세히 알아보기

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Task Runner를 사용하여 기존 리소스에서 작업 실행

Amazon EC2 인스턴스, 물리적 서버 또는 워크스테이션과 같이 관리하는 컴퓨팅 리소스에 Task Runner를 설치할 수 있습니다. Task Runner는 웹 서비스와 통신할 수 있다면 호환되는 하드웨어 또는 운영 체제의 어느 곳에나 설치할 수 있습니다. AWS Data Pipeline

이 접근 방식은 예를 들어 조직의 방화벽 내에 저장된 데이터를 처리하는 AWS Data Pipeline 데 사용하려는 경우에 유용할 수 있습니다. 로컬 네트워크의 서버에 Task Runner를 설치하면 로컬 데이터베이스에 안전하게 액세스한 다음 실행할 작업을 AWS Data Pipeline 폴링할 수 있습니다. 처리를 AWS Data Pipeline 끝내거나 파이프라인을 삭제해도 Task Runner 인스턴스는 사용자가 수동으로 종료할 때까지 계산 리소스에서 계속 실행됩니다. 파이프라인 실행이 완료된 후에도 Task Runner 로그는 유지됩니다.

사용자가 관리하는 리소스에서 Task Runner를 사용하려면 먼저 Task Runner를 다운로드한 후에 이 단원의 절차에 따라 그것을 전산 리소스에 설치해야 합니다.

참고

태스크 러너는 Linux 또는 macOS에서만 설치할 수 있습니다. UNIX Task Runner는 Windows 운영 체제에서 지원됩니다.

Task Runner 2.0을 사용하는 데 필요한 최소 Java 버전은 1.7입니다.

처리해야 하는 파이프라인 활동에 설치한 Task Runner를 연결하려면 workerGroup필드를 객체에 추가하고, 해당 작업자 그룹 값에 폴링하도록 Task Runner를 구성합니다. Task JAR Runner 파일을 실행할 때 작업자 그룹 문자열을 매개 변수 (예:--workerGroup=wg-12345) 로 전달하면 됩니다.

AWS Data Pipeline diagram showing monthly task flow for archiving processed invoices using Task Runner.
{ "id" : "CreateDirectory", "type" : "ShellCommandActivity", "workerGroup" : "wg-12345", "command" : "mkdir new-directory" }

Task Runner 설치

이 섹션에서는 Task Runner와 그 필수 구성 요소를 설치하고 구성하는 방법을 설명합니다. 간단한 수동 과정으로 설치할 수 있습니다.

Task Runner를 설치하려면
  1. Task Runner는 Java 버전 1.6 또는 1.8이 필요합니다. Java가 설치되었는지 그리고 실행 버전을 확인하려면 다음 명령을 사용합니다.

    java -version

    컴퓨터에 Java 1.6 또는 1.8이 설치되지 않은 경우, 이 버전 중 하나를 http://www.oracle.com/technetwork/java/index.html에서 다운로드하십시오. Java를 다운로드하여 설치한 후 다음 단계를 진행합니다.

  2. https://s3.amazonaws.com/datapipeline-us-east-1/TaskRunnerus-east-1/software/latest/ TaskRunner-1.0.jar TaskRunner -1.0.jar에서 다운로드한 다음 대상 컴퓨팅 리소스의 폴더에 복사합니다. EmrActivity작업을 실행하는 Amazon EMR 클러스터의 경우 클러스터의 마스터 노드에 Task Runner를 설치합니다.

  3. Task Runner를 사용하여 AWS Data Pipeline 웹 서비스에 연결하여 명령을 처리하는 경우 사용자는 데이터 파이프라인을 생성하거나 관리할 권한이 있는 역할에 프로그래밍 방식으로 액세스해야 합니다. 자세한 내용은 프로그래밍 방식 액세스 권한 부여 단원을 참조하십시오.

  4. 태스크 러너는 를 사용하여 웹 서비스에 연결합니다. AWS Data Pipeline HTTPS 리소스를 사용하는 경우 적절한 라우팅 테이블과 ACL 서브넷에서 해당 AWS HTTPS 리소스가 활성화되어 있는지 확인하십시오. 방화벽 프록시를 사용하는 경우에는 포트 443이 열려 있어야 합니다.

Task Runner 시작하기

Task Runner를 설치한 디렉터리로 설정된 새 명령 프롬프트 창에서 다음 명령으로 Task Runner를 시작합니다.

java -jar TaskRunner-1.0.jar --config ~/credentials.json --workerGroup=myWorkerGroup --region=MyRegion --logUri=s3://mybucket/foldername

--config 옵션은 사용자의 자격 증명 파일을 가리킵니다.

--workerGroup 옵션은 작업자 그룹 이름을 지정합니다. 이 이름은 처리할 작업의 파이프라인에 지정된 값과 같아야 합니다.

--region 옵션은 실행할 작업을 가져올 서비스 리전을 지정합니다.

--logUri 옵션은 Amazon S3 내 위치로 압축 로그를 보낼 때 사용됩니다.

Task Runner가 활성화되면 로그 파일이 터미널 창에 기록된 경로를 인쇄합니다. 다음은 예입니다.

Logging to /Computer_Name/.../output/logs

작업 실행기는 로그인 셸과 분리된 상태로 실행되어야 합니다. 터미널 애플리케이션을 사용하여 컴퓨터에 연결할 경우 nohup 또는 screen 같은 유틸리티를 사용하여 로그아웃 시 작업 실행기 애플리케이션이 남지 않도록 해야 합니다. 명령줄 옵션에 대한 자세한 내용은 Task Runner 구성 옵션을 참조하십시오.

Task Runner 로깅 확인

Task Runner가 작동하는지 확인하는 가장 쉬운 방법은 로그 파일을 쓰고 있는지 확인하는 것입니다. Task Runner는 Task Runner가 설치된 디렉터리 output/logs 아래의 디렉터리에 시간별 로그 파일을 기록합니다. 파일 이름은 다음과 같습니다. 여기서 HH는 Task Runner.log.YYYY-MM-DD-HH 00에서 23까지 이어집니다. UDT 스토리지 공간을 절약하기 위해 8시간이 지난 모든 로그 파일은 로 GZip 압축됩니다.