Amazon Data Wrangler를 사용하여 ML SageMaker 데이터 준비 - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon Data Wrangler를 사용하여 ML SageMaker 데이터 준비

중요

Amazon SageMaker Data Wrangler가 Amazon SageMaker Canvas에 통합되었습니다. SageMaker Canvas의 새로운 Data Wrangler 경험에서는 자연어 인터페이스를 사용하여 시각적 인터페이스 외에도 데이터를 탐색하고 변환할 수 있습니다. SageMaker Canvas의 Data Wrangler에 대한 자세한 내용은 섹션을 참조하세요데이터 준비.

Amazon SageMaker Data Wrangler(Data Wrangler)는 데이터를 가져오고, 준비하고, 변환하고, 특성화하고, 분석할 수 있는 솔루션을 제공하는 end-to-end Amazon SageMaker Studio Classic의 기능입니다. 사용자는 Data Wrangler 데이터 준비 플로우를 기계 학습(ML) 워크플로에 통합하여 코딩을 거의 또는 전혀 사용하지 않고도 데이터 사전 처리 및 특성 추출을 단순화하고 간소화할 수 있습니다. 나만의 Python 스크립트와 변환을 추가하여 워크플로를 사용자 지정할 수도 있습니다.

Data Wrangler는 기계 학습 애플리케이션에 사용할 데이터를 분석하고 준비하는 데 도움이 되는 다음과 같은 핵심 기능을 제공합니다.

  • 가져오기 - Amazon Simple Storage Service(Amazon S3), Amazon Athena (Athena), Amazon Redshift, Snowflake 및 Databricks에 연결하고 데이터를 가져옵니다.

  • 데이터 플로우 - 데이터 플로우를 생성하여 일련의 ML 데이터 준비 단계를 정의합니다. 사용자는 플로우를 사용하여 다양한 데이터 소스의 데이터 세트를 결합하고, 데이터 세트에 적용할 변환의 수와 유형을 식별하고, ML 파이프라인에 통합할 수 있는 데이터 준비 워크플로를 정의할 수 있습니다.

  • 변환 - 문자열, 벡터, 숫자 데이터 형식 지정 도구와 같은 표준 변환을 사용하여 데이터 세트를 정리하고 변환합니다. 텍스트, 날짜/시간 임베딩, 범주형 인코딩과 같은 변환을 사용하여 데이터를 특징화할 수 있습니다.

  • 데이터 인사이트 생성 - Data Wrangler Data Insights 및 Quality Report를 사용하여 데이터 품질을 자동으로 확인하고 데이터의 이상 항목을 감지합니다.

  • 분석 - 플로우의 어느 시점에서든 데이터 세트의 특징을 분석할 수 있습니다. Data Wrangler에는 산점 및 히스토그램과 같은 기본 제공 데이터 시각화 도구뿐만 아니라 대상 누 분석 및 특징 상관 관계를 파악하기 위한 빠른 모델링과 같은 데이터 분석 도구가 포함되어 있습니다.

  • 내보내기 - 데이터 준비 워크플로를 다른 위치로 내보냅니다. 다음은 예제 위치입니다.

    • Amazon Simple Storage Service(S3) 버킷

    • Amazon SageMaker Pipelines - 파이프라인을 사용하여 모델 배포를 자동화합니다. 사용자는 변환한 데이터를 파이프라인으로 직접 내보낼 수 있습니다.

    • Amazon SageMaker 특성 저장소 - 특성과 해당 데이터를 중앙 저장소에 저장합니다.

    • Python 스크립트 - 사용자 지정 워크플로를 위해 데이터와 해당 변환을 Python 스크립트에 저장합니다.

Data Wrangler 사용을 시작하려면 Data Wrangler 시작하기을 참고하세요.

중요

Data Wrangler는 더 이상 Jupyter Lab 버전 1()을 지원하지 않습니다JL1. 최신 기능 및 업데이트를 이용하려면 Jupyter Lab 버전 3으로 업데이트하세요. 업그레이드에 대한 자세한 내용은 콘솔에서 애플리케이션 JupyterLab 버전 보기 및 업데이트 섹션을 참조하세요.

중요

이 안내서의 정보 및 절차는 최신 버전의 Amazon SageMaker Studio Classic을 사용합니다. Studio Classic을 최신 버전으로 업데이트하는 방법에 대한 자세한 내용은 섹션을 참조하세요Amazon SageMaker Studio Classic UI 개요.

Studio Classic 버전 1.3.0 이상을 사용해야 합니다. 다음 절차에 따라 Amazon SageMaker Studio Classic을 열고 실행 중인 버전을 확인합니다.

Studio Classic을 열고 버전을 확인하려면 다음 절차를 참조하세요.

  1. 의 단계를 사용하여 Amazon SageMaker Studio Classic사전 조건을 통해 Data Wrangler에 액세스합니다.

  2. Studio Classic을 시작하는 데 사용할 사용자 옆에 있는 앱 시작을 선택합니다.

  3. Studio를 선택합니다.

  4. Studio Classic이 로드된 후 파일 , 새로 만들기 , 터미널 을 차례로 선택합니다.

    4단계에 설명된 Studio Classic 컨텍스트 메뉴 옵션입니다.
  5. Studio Classic을 시작한 후 파일 , 새로 만들기 , 터미널 을 차례로 선택합니다.

  6. Studio Classic 인스턴스의 버전을 인쇄cat /opt/conda/share/jupyter/lab/staging/yarn.lock | grep -A 1 "@amzn/sagemaker-ui-data-prep-plugin@"하려면 를 입력합니다. Snowflake를 사용하려면 Studio Classic 버전 1.3.0이 있어야 합니다.

    6단계의 명령을 복사하여 붙여넣어 Studio Classic에서 열린 터미널 창입니다.

내 에서 Amazon SageMaker Studio Classic을 업데이트할 수 있습니다 AWS Management Console. Studio Classic 업데이트에 대한 자세한 내용은 섹션을 참조하세요Amazon SageMaker Studio Classic UI 개요.