Studio Classic UI를 사용하여 테이블 형식 데이터에 대한 회귀 또는 분류 Autopilot 실험 생성 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Studio Classic UI를 사용하여 테이블 형식 데이터에 대한 회귀 또는 분류 Autopilot 실험 생성

중요

2023년 11월 30일부터 Autopilot의 UI는 업데이트된 Amazon SageMaker Studio 환경의 일부로 Amazon SageMaker Canvas로 마이그레이션됩니다. SageMaker Canvas는 분석가 및 시민 데이터 과학자에게 데이터 준비, 기능 엔지니어링, 알고리즘 선택, 훈련 및 튜닝, 추론 등과 같은 작업에 대한 코드 없는 기능을 제공합니다. 사용자는 내장된 시각화 및 what-if 분석을 활용하여 자동화된 예측을 통해 모델을 쉽게 프로덕션화할 수 있으므로 데이터와 다양한 시나리오를 탐색할 수 있습니다. Canvas는 컴퓨터 비전, 수요 예측, 지능형 검색 및 생성형 AI를 비롯한 다양한 사용 사례를 지원합니다.

Studio의 이전 경험인 Amazon SageMaker Studio Classic 사용자는 Studio Classic에서 Autopilot UI를 계속 사용할 수 있습니다. 코딩 경험이 있는 사용자는 기술 구현을 위해 지원되는 모든 SDK에서 모든 API 참조를 계속 사용할 수 있습니다.

지금까지 Studio Classic에서 Autopilot을 사용하고 있고 SageMaker Canvas로 마이그레이션하려는 경우 SageMaker Canvas 애플리케이션을 생성하고 사용할 수 있도록 사용자 프로필 또는 IAM 역할에 추가 권한을 부여해야 할 수 있습니다. 자세한 내용은 (선택 사항) Studio Classic의 Autopilot에서 SageMaker Canvas로 마이그레이션 섹션을 참조하세요.

이 안내서의 모든 UI 관련 지침은 Amazon SageMaker Canvas 로 마이그레이션하기 전에 Autopilot의 독립 실행형 기능과 관련이 있습니다. 이 지침을 따르는 사용자는 Studio Classic을 사용해야 합니다.

Amazon SageMaker Studio Classic UI를 사용하여 테이블 형식 데이터의 분류 또는 회귀 문제에 대한 Autopilot 실험을 생성할 수 있습니다. UI는 실험의 이름을 지정하고, 입력 및 출력 데이터의 위치를 제공하고, 예측할 대상 데이터를 지정하는 데 도움이 됩니다. 선택 사항으로, 해결하려는 문제의 유형을 지정하고(회귀, 분류, 멀티클래스 분류) 모델링 전략(누적 앙상블 또는 하이퍼파라미터 최적화)을 선택하고 Autopilot 작업에서 데이터를 훈련하는 데 사용하는 알고리즘 목록을 선택하는 등의 작업을 수행할 수 있습니다.

UI에는 설명, 전환 스위치, 드롭다운 메뉴, 라디오 버튼 등이 있어 모델 후보 생성을 탐색하도록 도와드립니다. 실험 후에는 여러 시험을 비교하고 각 모델의 사전 처리 단계, 알고리즘 및 하이퍼파라미터 범위에 대한 세부 정보를 자세히 살펴볼 수 있습니다. 선택 사항으로 설명가능성성능 보고서를 다운로드할 수 있는 옵션도 있습니다. 제공된 노트북을 사용하여 자동화된 데이터 탐색 결과 또는 후보 모델 정의를 확인합니다.

또는 AutoML API를 사용하여 테이블 형식 데이터에 대한 회귀 또는 분류 작업 생성에서 Autopilot AutoML API를 사용할 수 있습니다.

Studio Classic UI를 사용하여 Autopilot 실험을 생성하는 방법
  1. https://console.aws.amazon.com/sagemaker/에서 로그인하고 왼쪽 탐색 창에서 Studio를 선택한 다음, 도메인과 사용자 프로필을 선택하고 Studio 열기를 선택합니다.

  2. Studio에서 왼쪽 상단 탐색 창에서 Studio Classic 아이콘을 선택합니다. 이렇게 하면 Studio Classic 앱이 열립니다.

  3. 선택한 스페이스에서 Studio Classic 애플리케이션을 실행 또는 열거나 Studio Classic 스페이스를 생성합니다. 탭에서 AutoML 카드를 선택합니다. 그러면 새 AutoML 탭이 열립니다.

  4. AutoML 실험 생성을 선택합니다. 그러면 새 실험 생성 탭이 열립니다.

  5. 실험 및 데이터 세부 정보 섹션에 다음 정보를 입력합니다.

    1. 실험 이름 - 현재의 계정에 고유해야 하며 최대 63자의 영숫자를 AWS 리전 포함해야 합니다. 하이픈(-)은 포함할 수 있지만 공백은 포함할 수 없습니다.

    2. 입력 데이터 - 입력 데이터의 Amazon Simple Storage Service(S3) 버킷 위치를 제공합니다. 이 S3 버킷은 현재 AWS 리전에 있어야 합니다. URL은 Amazon SageMaker AI에 쓰기 권한이 있는 s3:// 형식이어야 합니다. 파일은 CSV 또는 Parquet 형식이어야 하며 500개 이상의 행을 포함해야 합니다. 찾아보기를 선택하여 사용 가능한 경로를 스크롤하고 미리보기를 선택하여 입력 데이터의 샘플을 확인합니다.

    3. S3 입력이 매니페스트 파일입니까? - 매니페스트 파일에는 입력 데이터가 있는 메타데이터가 포함됩니다. 메타데이터는 Amazon S3의 데이터 위치를 지정합니다. 또한 데이터 형식을 지정하는 방법과 모델을 훈련할 때 사용할 데이터세트의 속성을 지정합니다. 레이블이 지정된 데이터를 Pipe 모드에서 스트리밍할 때는 사전 처리 대신 매니페스트 파일을 사용할 수 있습니다.

    4. 데이터 자동 분할이란? - Autopilot은 훈련 및 검증 데이터를 위해 데이터를 80~ 20%로 분할할 수 있습니다. 사용자 지정 분할을 선호하는 경우 분할 비율 지정을 선택합니다. 사용자 지정 데이터세트를 검증에 사용하려면 검증 세트 제공을 선택합니다.

    5. 출력 데이터 위치(S3 버킷) - 출력 데이터를 저장하려는 S3 버킷 위치의 이름입니다. 이 버킷의 URL은 Amazon SageMaker AI에 쓰기 권한이 있는 Amazon S3 형식이어야 합니다. Amazon SageMaker S3 버킷이 현재 AWS 리전에 있어야 합니다. 또한 Autopilot은 입력 데이터와 동일한 위치에 이를 자동으로 생성할 수 있습니다.

  6. 다음: 대상 및 기능을 선택합니다. 대상 및 기능 탭이 열립니다.

  7. 대상 및 기능 섹션에서:

    • 모델 예측의 대상으로 설정할 열을 선택합니다.

    • 선택적으로, 샘플 가중치 섹션에 샘플 가중치 열의 이름을 전달하여 훈련 및 평가 중에 데이터세트 행에 가중치를 적용하도록 요청할 수 있습니다. 사용 가능한 객체 지표에 대한 자세한 내용은 Autopilot 가중치 지표을 참조하세요.

      참고

      샘플 가중치에 대한 지원은 앙상블 모드에서만 사용할 수 있습니다.

    • 훈련할 기능을 선택하고 데이터 유형을 변경할 수도 있습니다. 사용 가능한 데이터 유형은Text, Numerical, Categorical, Datetime, Sequence, 및 Auto입니다. 기본적으로 모든 기능이 선택됩니다.

  8. 다음: 훈련 방법을 선택합니다. 훈련 방법 탭이 열립니다.

  9. 훈련 방법 섹션에서 훈련 옵션(앙상블, 하이퍼파라미터 최적화(HPO) 또는 자동)을 선택하면 Autopilot이 데이터세트 크기에 따라 훈련 방법을 자동으로 선택하도록 할 수 있습니다. 각 훈련 모드는 데이터세트에서 사전 정의된 알고리즘 세트를 실행하여 모델 후보를 훈련시킵니다. 기본적으로 Autopilot은 주어진 훈련 모드에 사용할 수 있는 모든 알고리즘을 미리 선택합니다. 모든 알고리즘을 사용하여 Autopilot 훈련 실험을 실행하거나 나만의 서브셋을 선택할 수 있습니다.

    훈련 모드 및 사용 가능한 알고리즘에 대한 자세한 내용은 훈련 모드 및 알고리즘 페이지의 Autopilot 훈련 모드 섹션을 참조하세요.

  10. 다음: 배포 및 고급 설정을 선택하여 배포 및 고급 설정 탭을 엽니다. 설정에는 자동 표시 엔드포인트 이름, 기계 학습 문제 유형, 실험 실행을 위한 추가 선택 사항이 포함됩니다.

    1. 배포 설정 - Autopilot은 자동으로 엔드포인트를 생성하고 모델을 배포할 수 있습니다.

      자동으로 생성된 엔드포인트에 자동 배포하거나 사용자 지정 배포를 위한 엔드포인트 이름을 제공하려면 자동 배포에서 토글을 로 설정합니다. Amazon SageMaker Data Wrangler에서 데이터를 가져오는 경우 Data Wrangler에서 변환을 사용 또는 사용하지 않고 최적의 모델을 자동 배포할 수 있는 추가 옵션이 있습니다.

      참고

      Data Wrangler 흐름에 groupby, join 또는 concatenate와 같은 다중 행 작업이 포함된 경우 이러한 변환으로 자동 배포할 수 없습니다. 자세한 내용은 Automatically Train Models on Your Data Flow를 참조하세요.

    2. 고급 설정(선택 사항) - Autopilot은 문제 유형 정의, Autopilot 작업 및 시험의 시간 제약, 보안, 암호화 설정과 같은 실험 파라미터를 수동으로 설정하는 추가 제어 기능을 제공합니다.

      참고

      Autopilot은 기본값 설정을 지원하므로 Studio Classic UI를 사용하여 Autopilot 실험을 간단하게 구성할 수 있습니다. 관리자는 Studio Classic 수명 주기 구성(LCC)을 사용하여 구성 파일에 인프라, 네트워킹 및 보안 값을 설정하고 AutoML 작업의 고급 설정을 미리 채울 수 있습니다.

      관리자가 Autopilot 실험의 사용자 지정을 자동화하는 방법을 알아보려면 Autopilot 실험의 기본 파라미터 구성하기(관리자용)을 참조하세요.

      1. 기계 학습 문제 유형 - Autopilot은 데이터세트에서 지도 학습 문제의 유형을 자동으로 유추할 수 있습니다. 수동으로 선택하려는 경우 기계 학습 문제 유형 선택 드롭다운 메뉴를 사용합니다. 기본값은 자동입니다. 경우에 따라 SageMaker AI가 정확하게 추론할 수 없습니다. 이런 경우에는 해당 작업이 성공할 수 있도록 값을 제공해야 합니다. 특히 다음 이벤트 유형 중에서 선택할 수 있습니다.

        • 바이너리 분류 - 바이너리 분류는 특성에 따라 사전 정의된 상호 배타적 분류 두 가지 중 하나에 입력 데이터를 할당합니다. 예를 들어, 질병에 걸렸는지 여부를 판단하는 진단 테스트 결과를 기반으로 의료 진단이 이루어집니다.

        • 회귀 - 회귀 분석은 입력 변수(독립 변수 또는 특징이라고도 함)와 대상 변수(종속 변수라고도 함) 간 관계를 설정합니다. 이 관계는 입력 변수를 연속 출력에 매핑하는 수학 함수 또는 모델을 통해 캡처됩니다. 욕실의 평방 피트 및 개수, 주식 시장 동향 또는 판매량 추정 등의 특징을 기반으로 주택 가격을 예측하는 등의 작업에 주로 사용됩니다.

        • 멀티클래스 분류 - 멀티클래스 분류는 정치, 금융, 철학 등 텍스트 문서와 가장 관련이 있는 주제에 대한 예측과 같이, 속성을 기반으로 여러 클래스 중 하나에 입력 데이터를 할당합니다.

      2. 런타임 - 최대 시간 제한을 정의할 수 있습니다. 시간 제한에 도달하면 시간 제한을 초과하는 시험 및 작업은 자동으로 중지됩니다.

      3. 액세스 - Amazon SageMaker Studio Classic이 사용자를 대신하여 임시 액세스 AWS 서비스 권한(특히 SageMaker AI 및 Amazon S3)을 얻기 위해 수임하는 역할을 선택할 수 있습니다. 역할이 명시적으로 정의되지 않은 경우 Studio Classic은 사용자 프로필에 연결된 기본 SageMaker AI 실행 역할을 자동으로 사용합니다.

      4. 암호화 - 저장 데이터의 보안을 강화하고 무단 액세스로부터 데이터를 보호하기 위해 Amazon S3 버킷과 Studio Classic 도메인에 연결된 Amazon Elastic Block Store(Amazon Elastic Block Store) 볼륨의 데이터를 암호화하는 암호화 키를 지정할 수 있습니다.

      5. 보안 - SageMaker AI 작업이 실행되는 가상 프라이빗 클라우드(Amazon VPC)를 선택할 수 있습니다. Amazon VPC가 입력 및 출력 Amazon S3 버킷에 액세스할 수 있는지 확인하세요.

      6. 프로젝트 -이 Autopilot 실험 및 모델 출력과 연결할 SageMaker AI 프로젝트의 이름을 지정합니다. 프로젝트를 지정하면 Autopilot은 프로젝트에 실험에 태그를 지정합니다. 이를 통해 이 프로젝트와 관련된 모델 출력을 알 수 있습니다.

      7. 태그 - 태그는 키-값 쌍의 배열입니다. 태그를 사용하여 용도 AWS 서비스, 소유자 또는 환경과 같은에서 리소스를 분류합니다.

    3. Autopilot 실험을 생성하기 전에 다음: 검토 및 생성을 선택하여 Autopilot 실험의 요약을 확인합니다.

  11. 실험 생성을 선택합니다. 실험 생성은 SageMaker AI에서 Autopilot 작업을 시작합니다. Autopilot은 실험 상태, 노트북의 데이터 탐색 프로세스 및 모델 후보에 대한 정보, 생성된 모델 및 보고서 목록, 실험 생성에 사용된 작업 프로필을 제공합니다.

    Autopilot 작업으로 생성된 노트북에 대한 자세한 내용은 AutoML 작업을 관리하기 위해 생성된 Autopilot 노트북을 참조하세요. 각 모델 후보 및 해당 보고서의 세부 정보는 모델 세부 정보 보기 및 섹션을 참조하세요Autopilot 모델 성능 보고서 보기.

참고

불필요한 비용 발생을 방지하려면: 더 이상 필요하지 않은 모델을 배포한 경우 엔드포인트 및 배포 중 생성된 리소스를 삭제합니다. 리전별 인스턴스 요금에 대한 정보는 Amazon SageMaker AI 요금에서 확인할 수 있습니다.