Data Wrangler 흐름을 생성합니다. - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Data Wrangler 흐름을 생성합니다.

Amazon SageMaker Data Wrangler 흐름 또는 데이터 흐름 을 사용하여 데이터 준비 파이프라인을 생성하고 수정합니다. 데이터 흐름은 생성한 데이터 세트, 변환, 분석 또는 단계를 연결하고 파이프라인을 정의하는 데 사용할 수 있습니다.

인스턴스

Amazon SageMaker Studio Classic에서 Data Wrangler 흐름을 생성할 때 Data Wrangler는 Amazon EC2 인스턴스를 사용하여 흐름에서 분석 및 변환을 실행합니다. 기본적으로 Data Wrangler는 m5.4xlarge 인스턴스를 사용합니다. m5 인스턴스는 컴퓨팅과 메모리 간의 균형을 제공하는 범용 인스턴스입니다. m5 인스턴스를 다양한 컴퓨팅 워크로드에 사용할 수 있습니다.

Data Wrangler는 또한 r5 인스턴스를 사용할 수 있는 옵션을 제공합니다. r5 인스턴스는 메모리에서 대규모 데이터 세트를 처리하는 빠른 성능을 제공하도록 설계되었습니다.

워크로드에 가장 최적화된 인스턴스를 선택하는 것이 좋습니다. 예를 들어 r5.8xlarge는 m5.4xlarge보다 가격이 더 높을 수 있지만 r5.8xlarge는 워크로드에 더 잘 최적화될 수 있습니다. 더 잘 최적화된 인스턴스를 사용하면 더 적은 시간에 더 저렴한 비용으로 데이터 흐름을 실행할 수 있습니다.

Data Wrangler 흐름을 실행하는 데 사용할 수 있는 인스턴스가 다음 테이블에 나와 있습니다.

표준 인스턴스 vCPU 메모리
ml.m5.4xlarge 16 64GiB
ml.m5.8xlarge 32 128GiB
ml.m5.16xlarge 64

256GiB

ml.m5.24xlarge 96 384 GiB
r5.4xlarge 16 128GiB
r5.8xlarge 32 256GiB
r5.24xlarge 96 768GiB

r5 인스턴스에 대한 자세한 내용은 Amazon EC2 R5 인스턴스 를 참조하세요. m5 인스턴스에 대한 자세한 내용은 Amazon EC2 M5 인스턴스 를 참조하세요.

각 Data Wrangler 흐름에는 연결된 Amazon EC2 인스턴스가 있습니다. 단일 인스턴스에 연결된 플로우가 여러 개 있을 수 있습니다.

각 흐름 파일에 대해 인스턴스 유형을 원활하게 전환할 수 있습니다. 인스턴스 유형을 전환해도 흐름을 실행하는 데 사용한 인스턴스는 계속 실행됩니다.

흐름의 인스턴스 유형을 전환하려면 다음과 같이 하세요.

  1. 실행 중인 터미널 및 커널 아이콘()을 선택합니다 Black square icon representing a placeholder or empty image. .

  2. 사용 중인 인스턴스로 이동하여 선택합니다.

  3. 삭제하려는 인스턴스를 선택합니다.

    Data Wrangler 콘솔의 데이터 흐름 페이지에서 인스턴스를 선택하는 방법을 보여주는 예제입니다.
  4. 저장(Save)을 선택합니다.

두 인스턴스가 실행되는 동안에는 두 인스턴스에 대해 요금이 청구됩니다. 추가 요금이 발생하지 않도록 하려면 사용하지 않는 인스턴스를 수동으로 종료하세요. 실행 중인 인스턴스를 종료하려면 다음 절차를 사용하세요.

실행 중인 인스턴스를 종료하려면

  1. 인스턴스 아이콘을 선택합니다. 다음 이미지는 RUNNING INSTANCES 아이콘을 선택할 수 있는 위치를 보여줍니다.

    Studio Classic 콘솔의 RUNNING INSTANCES 탭입니다.
  2. 종료하려는 인스턴스 옆의 종료를 선택합니다.

흐름을 실행하는 데 사용된 인스턴스를 종료하면 일시적으로 흐름에 액세스할 수 없습니다. 이전에 종료한 인스턴스를 실행하는 흐름을 열려고 시도하는 동안 오류가 발생하는 경우 5분 동안 기다린 후 다시 열어 보세요.

Amazon Simple Storage Service 또는 Amazon SageMaker Feature Store와 같은 위치로 데이터 흐름을 내보내면 Data Wrangler가 Amazon SageMaker 처리 작업을 실행합니다. 처리 작업에 다음 인스턴스 중 하나를 사용할 수 있습니다. 데이터 내보내기에 대한 자세한 내용은 내보내기 단원을 참조하세요.

표준 인스턴스 vCPU 메모리
ml.m5.4xlarge 16 64GiB
ml.m5.12xlarge 48

192GiB

ml.m5.24xlarge 96 384 GiB

사용 가능한 인스턴스 유형 사용에 대한 시간당 비용에 대한 자세한 내용은 SageMaker 요금 단원을 참조하세요.

데이터 흐름 UI

데이터 세트를 가져오면 원본 데이터 세트이 데이터 흐름에 나타나고 이름은 Source입니다. 데이터를 가져올 때 샘플링을 설정한 경우 이 데이터 세트의 이름은 Source - sampled입니다. Data Wrangler는 데이터 세트의 각 열 유형을 자동으로 유추하여 Data types이라는 새 데이터 프레임을 만듭니다. 이 프레임을 선택하여 유추된 데이터 유형을 업데이트할 수 있습니다. 데이터 세트 하나를 업로드하면 다음 이미지에 표시된 것과 비슷한 결과가 나타납니다.

Data Wrangler 콘솔에서 소스 - 샘플링 및 데이터 유형을 보여주는 예제입니다.

변환 단계를 추가할 때마다 새 데이터 프레임이 생성됩니다. 여러 변환 단계(조인 또는 연결 제외)가 동일한 데이터 세트에 추가되면 해당 단계가 누적됩니다.

조인연결은 조인되거나 연결된 새 데이터 세트를 포함하는 독립형 단계를 만듭니다.

다음 다이어그램은 두 데이터 세트 간의 조인과 두 단계 스택이 있는 데이터 흐름을 보여줍니다. 첫 번째 스택(단계(2))은 데이터 유형 데이터 세트에서 유추된 유형에 두 개의 변환을 추가합니다. 다운스트림 스택 또는 오른쪽 스택은 demo-join이라는 조인의 결과로 데이터 세트에 변환을 추가합니다.

Data Wrangler 콘솔의 데이터 흐름 페이지에 단계를 보여주는 예제입니다.

데이터 흐름의 오른쪽 하단에 있는 작은 회색 상자는 흐름의 스택과 단계 수, 흐름의 레이아웃에 대한 개요를 제공합니다. 회색 상자 안의 밝은 상자는 UI 뷰에 있는 단계를 나타냅니다. 이 상자를 사용하여 UI 보기를 벗어나는 데이터 흐름 섹션을 볼 수 있습니다. 화면 맞춤 아이콘( Dotted square outline icon representing a placeholder or empty state. )을 사용하여 모든 단계와 데이터 세트를 UI 뷰에 맞출 수 있습니다.

왼쪽 하단 탐색 모음에는 데이터 흐름을 확대( Plus symbol icon representing an addition or new item action. ) 및 축소( Horizontal line or divider, typically used to separate content sections. )하고 화면()에 맞게 데이터 흐름을 크기 조정하는 데 사용할 수 있는 아이콘이 포함되어 있습니다 Dotted square outline icon representing a placeholder or empty state. . 잠금 아이콘( Trash can icon representing deletion or removal functionality. )을 사용하여 화면에서 각 단계의 위치를 잠그거나 잠금 해제할 수 있습니다.

데이터 흐름에 단계 추가

데이터 세트 또는 이전에 추가한 단계 옆의 +를 선택하고 다음 옵션 중 하나를 선택합니다.

  • 데이터 유형 편집(데이터 유형 단계만 해당): 데이터 유형 단계에 변환을 추가하지 않은 경우 데이터 유형 편집을 선택하여 데이터 세트를 가져올 때 Data Wrangler가 추론한 데이터 유형을 업데이트할 수 있습니다.

  • 변환 추가: 새 변환 단계를 추가합니다. 추가할 수 있는 데이터 변환에 대해 자세히 알아보려면 데이터 변환하기 단원을 참조하세요.

  • 분석 추가: 분석을 추가합니다. 이 옵션을 사용하여 데이터 흐름의 어느 시점에서든 데이터를 분석할 수 있습니다. 단계에 분석을 하나 이상 추가하면 해당 단계에 분석 아이콘( Bar chart icon representing data visualization or analytics functionality. )이 나타납니다. 추가할 수 있는 분석에 대한 자세한 내용은 분석 및 시각화 단원을 참조하세요.

  • 조인: 두 데이터 세트을 조인하고 결과 데이터 세트를 데이터 흐름에 추가합니다. 자세한 내용은 데이터 세트 조인하기 단원을 참조하세요.

  • 연결: 두 데이터 세트를 연결하고 결과 데이터 세트를 데이터 흐름에 추가합니다. 자세한 내용은 데이터 세트 연결하기 단원을 참조하세요.

데이터 흐름에서 한 단계 삭제

단계를 삭제하려면 단계를 선택하고 삭제를 선택합니다. 노드가 단일 입력이 있는 노드인 경우 선택한 단계만 삭제합니다. 입력이 하나인 단계를 삭제해도 그 뒤에 오는 단계는 삭제되지 않습니다. 소스, 조인 또는 연결 노드의 단계를 삭제하는 경우 해당 단계를 따르는 모든 단계도 삭제됩니다.

단계 스택에서 단계를 삭제하려면 스택을 선택한 다음 삭제할 단계를 선택합니다.

다운스트림 단계를 삭제하지 않고 다음 절차 중 하나에 따라 단계를 삭제할 수 있습니다.

Delete a step in the Data Wrangler flow

단일 입력이 있는 데이터 흐름의 노드에 대해 개별 단계를 삭제할 수 있습니다. 소스, 조인 및 연결 노드의 개별 단계는 삭제할 수 없습니다.

Data Wrangler 흐름에서 단계를 삭제하려면 다음 절차를 따르세요.

  1. 삭제하려는 단계가 있는 단계 그룹을 선택합니다.

  2. 단계 옆에 있는 아이콘을 선택합니다.

  3. 스택 삭제를 선택합니다.

    Data Wrangler 콘솔의 데이터 흐름 페이지에서 단계를 삭제하는 방법을 보여주는 예제입니다.
Delete a step in the table view

다음 절차에 따라 테이블 보기에서 단계를 삭제합니다.

단일 입력이 있는 데이터 흐름의 노드에 대해 개별 단계를 삭제할 수 있습니다. 소스, 조인 및 연결 노드의 개별 단계는 삭제할 수 없습니다.

  1. 단계를 선택하고 해당 단계의 테이블 보기를 엽니다.

  2. 커서를 단계 위로 이동하면 줄임표 아이콘이 나타납니다.

  3. 단계 옆에 있는 아이콘을 선택합니다.

  4. Delete(삭제)를 선택합니다.

    Data Wrangler 콘솔의 테이블 보기에서 단계를 삭제하는 방법을 보여주는 예제입니다.

Data Wrangler 플로우에서 단계 편집

Data Wrangler 흐름에 추가한 각 단계를 편집할 수 있습니다. 단계를 편집하여 열의 변환 또는 데이터 유형을 변경할 수 있습니다. 단계를 편집하여 더 나은 분석을 수행할 수 있도록 변경할 수 있습니다.

단계를 편집할 수 있는 방법은 여러 가지가 있습니다. 일부 예로는 값을 이상값으로 간주하기 위한 임계값 변경 또는 대치 방법 변경 등이 있습니다.

스토리를 재생하려면 다음 절차에 따르세요.

단계를 편집하려면 다음과 같이 하세요.

  1. Data Wrangler 흐름에서 단계를 선택하여 테이블 보기를 엽니다.

    Data Wrangler 콘솔의 데이터 흐름 페이지의 예제 단계입니다.
  2. 데이터 흐름에서 단계를 선택합니다.

  3. 단계를 편집합니다.

다음 그림에 의 예가 나와 있습니다.

Data Wrangler 콘솔의 데이터 흐름 페이지에서 단계를 편집하는 방법을 보여주는 예제입니다.
참고

Amazon SageMaker 도메인 내의 공유 공간을 사용하여 Data Wrangler 흐름에서 공동 작업할 수 있습니다. 공유 공간 내에서 사용자와 공동 작업자는 플로우 파일을 실시간으로 편집할 수 있습니다. 하지만 사용자와 공동 작업자 모두 변경 사항을 실시간으로 확인할 수 없습니다. Data Wrangler 흐름을 변경하는 사람이 있으면 즉시 저장해야 합니다. 누군가 파일을 저장하면 공동 작업자는 파일을 닫았다가 다시 열지 않는 한 해당 파일을 볼 수 없습니다. 한 사람이 저장하지 않은 모든 변경 내용은 변경 내용을 저장한 사람이 덮어씁니다.