Amazon SageMaker Autopilot 예제 노트북 - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon SageMaker Autopilot 예제 노트북

다음 노트북은 Autopilot의 다양한 사용 사례를 다루는 실용적인 실습 예제입니다.

Autopilot의 모든 노트북은 SageMaker GitHub 예제 리포지토리 autopilot 디렉터리에서 찾을 수 있습니다.

Studio Classic 내에서 전체 Git 리포지토리를 복제하여 노트북에 직접 액세스하고 실행하는 것이 좋습니다. Studio Classic에서 Git 리포지토리를 복제하는 방법에 대한 자세한 내용은 섹션을 참조하세요 SageMaker Studio Classic에서 Git 리포지토리 복제.

사용 사례 설명
서버리스 추론

기본적으로 Autopilot을 사용하면 생성된 모델을 실시간 추론 엔드포인트에 배포할 수 있습니다. 이 리포지토리에서 노트북은 ENSEMBLINGHYPERPARAMETER OPTIMIZATION (HPO) 모드로 훈련된 Autopilot 모델을 서버리스 엔드포인트에 배포하는 방법을 보여줍니다. 서버리스 엔드포인트는 자동으로 컴퓨팅 리소스를 시작하고 트래픽에 따라 리소스를 확장 및 축소하므로 인스턴스 유형을 선택하거나 스케일링 정책을 관리할 필요가 없습니다.

사용자 지정 기능 선택

Autopilot은 데이터 세트를 검사하고 여러 후보를 실행하여 데이터 전처리 단계, 기계 학습 알고리즘 및 하이퍼파라미터의 최적 조합을 찾아냅니다. 실시간 엔드포인트에 쉽게 배포하거나 일괄 처리할 수 있습니다.

경우에 따라 사용자 지정 데이터 처리 코드를 Autopilot으로 가져와야 하는 유연성이 필요할 수 있습니다. 예를 들어 데이터 세트에 많은 독립 변수가 포함되어 있을 수 있으므로 사용자는 사용자 지정 기능 선택 단계를 통합하여 관련 없는 변수를 먼저 제거하는 것이 좋을 것입니다. 그러면 이렇게 작아진 데이터 세트를 사용하여 Autopilot 작업을 시작할 수 있습니다. 또한, 궁극적으로는 실시간 또는 일괄 처리를 위해 Autopilot의 사용자 지정 처리 코드와 모델을 모두 포함하는 것이 좋을 것입니다.

파이프라인 예제

Autopilot은 ML 모델 구축 프로세스를 간소화하지만 MLOps 엔지니어는 여전히 프로덕션 환경에서 ML 워크플로를 생성, 자동화 및 관리할 end-to-end 책임이 있습니다. SageMaker 파이프라인은 데이터 사전 처리, 모델 훈련, 하이퍼파라미터 튜닝, 모델 평가 및 배포와 같은 ML 수명 주기의 다양한 단계를 자동화하는 데 도움이 될 수 있습니다. 이 노트북은 Autopilot을 SageMaker 파이프라인 end-to-end AutoML 훈련 워크플로에 통합하는 방법을 시연하는 역할을 합니다. 파이프라인 내에서 Autopilot 실험을 시작하려면 Pipelines Lambda 또는 처리 단계를 사용하여 사용자 지정 통합 코드를 작성하여 모델 구축 워크플로우를 생성해야 합니다. 자세한 내용은 Amazon 파이프라인을 사용하여 실험에서 프로덕션으로 Amazon SageMaker SageMaker Autopilot ML 모델 이동을 참조하세요.

또는 어셈블링 모드에서 Autopilot을 사용하는 경우 파이프라인의 기본 AutoML 단계 에서 SageMaker 기본 AutoML 단계를 사용하는 방법을 보여주는 노트북 예제를 참조할 수 있습니다. 파이프라인 내에서 기본 단계로 지원되는 Autopilot을 사용하면 이제 파이프라인에 자동 훈련 단계(AutoMLStep)를 추가하고 앙상블링 모드에서 Autopilot 실험을 호출할 수 있습니다.

Amazon SageMaker Autopilot을 사용한 다이렉트 마케팅

이 노트북은 가 은행 마케팅 데이터 세트를 사용하여 고객이 은행에서 기간 예금에 등록할지 여부를 예측하는 방법을 보여줍니다. 이 데이터 세트에서 Autopilot을 사용하여 다양한 후보 파이프라인에 포함된 옵션을 탐색하여 가장 정확한 ML 파이프라인을 얻을 수 있습니다. Autopilot은 2단계 절차를 통해 각 후보를 생성합니다. 첫 번째 단계에서는 데이터 세트에서 자동화된 기능 엔지니어링을 수행합니다. 두 번째 단계에서는 모델을 생성하기 위한 알고리즘을 훈련시키고 튜닝합니다. 노트북에는 모델을 훈련시키는 방법과 배치 추론을 수행하기 위해 최상의 후보를 사용하여 모델을 배포하는 방법에 대한 지침이 포함되어 있습니다.

Amazon SageMaker Autopilot을 사용한 고객 이탈 예측

이 노트북에서는 고객 이탈 예측이라고도 하는 불만족 고객의 자동 식별을 위해 기계 학습을 사용하는 방법을 설명합니다. 이 예제에서는 공개적으로 사용 가능한 데이터 세트를 분석하고 해당 데이터 세트에 대해 기능 엔지니어링을 수행하는 방법을 보여줍니다. 그 다음에는, 훈련 알고리즘에 대한 최적의 하이퍼파라미터와 함께 최고 성능의 파이프라인을 선택하여 모델을 튜닝하는 방법을 보여줍니다. 마지막으로, 호스팅된 엔드포인트에 모델을 배포하고 실측 정보에 대한 예측을 평가하는 방법을 보여줍니다. 그러나 ML 모델이 완벽한 예측을 제공하는 경우는 거의 없습니다. 이러한 이유로 이 노트북은 ML을 사용하여 재무 결과를 결정할 때 예측 실수의 상대 비용을 통합하는 방법도 보여줍니다.

Amazon SageMaker Autopilot 및 Batch Transform(PythonSDK)을 사용한 상위 후보 고객 이탈 예측

또한 이 노트북에서는 고객 이탈 예측이라고도 하는 불만족 고객의 자동 식별을 위해 기계 학습을 사용하는 방법을 설명합니다. 이 노트북은 추론 확률을 구하도록 모델을 구성하고, 상위 N개 모델을 선택하고, 평가를 위해 홀드아웃 테스트 세트에서 일괄 변환을 수행하는 방법을 보여줍니다.

참고

이 노트북은 6/19/2020에 릴리스된 SageMaker Python SDK >= 1.65.1에서 작동합니다.

Amazon SageMaker Autopilot에 자체 데이터 처리 코드 가져오기

이 노트북은 Amazon SageMaker Autopilot을 사용할 때 사용자 지정 데이터 처리 코드를 통합하고 배포하는 방법을 보여줍니다. 사용자 지정 기능 선택 단계를 추가하여 Autopilot 작업에서 관련 없는 변수를 제거합니다. 그런 다음 Autopilot으로 생성된 사용자 지정 처리 코드와 모델을 실시간 엔드포인트에 배포하거나 일괄 처리를 위해 배포하는 방법을 보여줍니다.

추가 노트북

루트 디렉터리에서 일괄 변환, 시계열 예측 등과 같은 다른 사용 사례를 설명하는 노트북을 더 많이 찾아볼 수 있습니다.