

AWS Data Pipeline 는 더 이상 신규 고객이 사용할 수 없습니다. 의 기존 고객은 평소와 같이 서비스를 계속 사용할 AWS Data Pipeline 수 있습니다. [자세히 알아보기](https://aws.amazon.com/blogs/big-data/migrate-workloads-from-aws-data-pipeline/)

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 시작하기 AWS Data Pipeline
<a name="dp-getting-started"></a>

AWS Data Pipeline 를 사용하면 반복 데이터 처리 워크로드를 안정적이고 비용 효율적으로 시퀀싱, 예약, 실행 및 관리할 수 있습니다. 이 서비스는 비즈니스 논리에 기반하는 온프레미스와 클라우드 모두에서 정형 및 비정형 데이터를 사용하여 ETL(extract-transform-load: 추출-변환-로드) 활동을 쉽게 설계할 수 있게 해줍니다.

사용하려면 데이터 처리를 위한 비즈니스 로직을 지정하는 *파이프라인 정의를* AWS Data Pipeline생성합니다. 일반적인 파이프라인 정의는 실행할 작업을 정의하는 [활동](dp-concepts-activities.md), 입력 및 출력 데이터의 위치와 유형을 정의하는 [데이터 노드](dp-concepts-datanodes.md), 활동 실행 시점을 정하는 일정으로 구성됩니다.

이 자습서에서는 Apache 웹 서버 로그에서 GET 요청 수를 계산하는 셸 명령 스크립트를 실행합니다. 이 파이프라인은 1시간 동안 15분마다 실행되며, 반복될 때마다 Amazon S3로 출력을 기록합니다.

**사전 조건**  
시작하기 전에 [에 대한 설정 AWS Data Pipeline](dp-get-setup.md)의 작업을 완료해야 합니다.

**파이프라인 객체**  
파이프라인은 다음 객체를 사용합니다.

[ShellCommandActivity](dp-object-shellcommandactivity.md)  
입력 로그 파일을 읽고 오류 수를 계산합니다.

[S3DataNode](dp-object-s3datanode.md) (입력)  
입력 로그 파일이 있는 S3 버킷입니다.

[S3DataNode](dp-object-s3datanode.md) (출력)  
출력용 &S3 버킷입니다.

[Ec2Resource](dp-object-ec2resource.md)  
가 활동을 수행하는 데 AWS Data Pipeline 사용하는 컴퓨팅 리소스입니다.  
대량의 로그 파일 데이터가 있는 경우에는 EC2 인스턴스 대신 EMR 클러스터를 사용하여 파일을 처리하도록 파이프라인을 구성할 수 있습니다.

[일정](dp-object-schedule.md)  
1시간 동안 15분마다 활동을 실행하는 것으로 정의합니다.

**Topics**
+ [파이프라인 생성](#dp-getting-started-create)
+ [실행 중인 파이프라인 모니터링](#dp-getting-started-monitor)
+ [출력 검토](#dp-getting-started-output)
+ [파이프라인 삭제](#dp-getting-started-delete)

## 파이프라인 생성
<a name="dp-getting-started-create"></a>

를 시작하는 가장 빠른 방법은 *템플릿*이라는 파이프라인 정의를 AWS Data Pipeline 사용하는 것입니다.

**파이프라인을 생성하려면**

1. [https://console.aws.amazon.com/datapipeline/](https://console.aws.amazon.com/datapipeline/) AWS Data Pipeline 콘솔을 엽니다.

1. 탐색 모음에서 리전을 선택합니다. 현재 위치와 관계없이 사용자가 고를 수 있는 리전을 임의로 선택합니다. 많은 AWS 리소스는 리전에 고유하지만 파이프라인과 다른 리전에 있는 리소스를 사용할 수 AWS Data Pipeline 있습니다.

1. 처음 표시되는 화면은 현재 리전에서 파이프라인을 생성했는지 여부에 따라 달라집니다.

   1. 이 리전에서 파이프라인을 생성하지 않았다면 콘솔에 소개 화면이 표시됩니다. **지금 시작**을 선택합니다.

   1. 이 리전에서 이미 파이프라인을 생성했다면 해당 리전의 파이프라인이 나열된 페이지가 콘솔에 표시됩니다. **새 파이프라인 생성**을 선택합니다.

1. **이름**에 파이프라인 이름을 입력합니다.

1. (선택 사항) **설명**에 파이프라인에 대한 설명을 입력합니다.

1. **소스**의 경우는 [**Build using a template**]을 선택한 후 다음 템플릿 [**Getting Started using ShellCommandActivity**]를 선택합니다.

1. 템플릿을 선택할 때 열린 [**Parameters**] 부분 아래의 [**S3 input foler**] 및 [**Shell command to run**]은 기본값을 유지합니다. [**S3 output folder**] 옆의 폴더 아이콘을 클릭하고, 버킷 또는 폴더 중 하나를 선택한 다음 [**Select**]를 클릭합니다.

1. [**Schedule**] 아래의 기본값을 그대로 둡니다. 파이프라인을 활성화하면 파이프라인 실행이 시작된 후 1시간 동안 15분마다 실행합니다.

   원할 경우 [**Run once on pipeline activation**]을 선택할 수도 있습니다.

1. **Pipeline Configuration(파이프라인 구성)**에서 로깅을 활성화된 상태로 두십시오. **S3 location for logs(로그의 S3 위치)** 아래의 폴더 아이콘을 선택하고 버킷이나 폴더 중 하나를 선택한 후 **선택**을 선택합니다.

   원하는 경우, 로깅을 대신 비활성화할 수 있습니다.

1. **Security/Access(보안/액세스)**에서 **IAM 역할** 설정을 **기본값**으로 유지합니다.

1. **Activate**를 클릭합니다.

   필요하면 **Edit in Architect(아키텍트에서 편집)**를 선택하여 이 파이프라인을 수정합니다. 예를 들어 사전 조건을 추가할 수 있습니다.

## 실행 중인 파이프라인 모니터링
<a name="dp-getting-started-monitor"></a>

파이프라인을 활성화하고 나면 파이프라인 진행률을 모니터링할 수 있는 **실행 세부 정보** 페이지로 이동하게 됩니다.

**파이프라인 진행률을 모니터링하려면**

1. [**Update **]를 클릭하거나 F5를 눌러 표시된 상태를 업데이트합니다.
**작은 정보**  
열거된 실행이 없는 경우, [**Start (in UTC)**]와 [**End (in UTC)**]에 파이프라인의 예약된 시작 및 종료가 포함되는지 확인한 다음 [**Update**]를 클릭합니다.

1. 파이프라인에 있는 모든 객체의 상태가 `FINISHED`가 되면 파이프라인이 예약된 작업을 성공적으로 완료한 것입니다.

1. 파이프라인이 성공적으로 완료되지 않으면 파이프라인 설정에서 문제를 확인하십시오. 실패하거나 완료되지 않은 파이프라인 인스턴스 실행 문제 해결에 대한 자세한 내용은 [공통 문제 해결](dp-check-when-run-fails.md) 단원을 참조하세요.

## 출력 검토
<a name="dp-getting-started-output"></a>

Amazon S3 콘솔을 열고 버킷으로 이동합니다. 파이프라인을 한 시간 동안 15분마다 실행한 경우 타임스탬프가 지정된 하위 폴더 4개가 표시됩니다. 각 하위 폴더에는 이름이 `output.txt`인 파일의 출력이 포함되어 있습니다. 매번 동일한 입력 파일에서 스크립트를 실행했기 때문에 출력 파일이 동일합니다.

## 파이프라인 삭제
<a name="dp-getting-started-delete"></a>

요금이 발생하는 것을 중지하려면 파이프라인을 삭제하십시오. 파이프라인을 삭제하면 파이프라인 정의 및 연결된 모든 객체가 삭제됩니다.

**파이프라인을 삭제하려면**

1. **List Pipelines(파이프라인 나열)** 페이지에서 파이프라인을 선택합니다.

1. **작업**을 클릭한 후 **삭제**를 선택합니다.

1. 확인 메시지가 나타나면 **삭제**를 선택합니다.

이 자습서의 출력으로 끝난 경우에는 Amazon S3 버킷의 출력 폴더를 삭제하십시오.