SparkML 및 Scikit-learn을 사용하여 특징 처리

포커스 모드

SparkML 및 Scikit-learn을 사용하여 특징 처리 - Amazon SageMaker AI

Spark ML을 사용하여 특성 처리 Scikit-Learn을 사용하여 특징 처리

Amazon SageMaker AI 기본 제공 알고리즘 또는 사용자 지정 알고리즘으로 모델을 훈련하기 전에 Spark 및 scikit-learn 프리프로세서를 사용하여 데이터를 변환하고 기능을 엔지니어링할 수 있습니다.

Spark ML을 사용하여 특성 처리

SageMaker AI 노트북에서 서버리스 ETL(추출, 변환, 로드) 서비스인 AWS Glue를 사용하여 Spark ML 작업을 실행할 수 있습니다. 또한 기존 EMR 클러스터에 연결해 Amazon EMR 사용하여 SparkML 작업을 실행할 수 있습니다. 이렇게 하려면 SageMaker AI 노트북에서 로 호출할 수 있는 권한을 부여하는 AWS Identity and Access Management (IAM) 역할이 필요합니다 AWS Glue.

참고

지원되는 Python 및 Spark 버전을 확인하려면 AWS Glue 릴리스 정보를 참조 AWS Glue 하세요.

엔지니어링 기능을 수행한 후에는 MLeap으로 Spark ML 작업을 패키지화하여 MLeap 컨테이너로 직렬화하여 추론 파이프라인에 추가할 수 있습니다. 외부 관리 Spark 클러스터를 사용할 필요가 없습니다. 이 접근 방식을 사용하면 행 샘플에서 테라바이트 단위의 데이터까지 원활하게 확장할 수 있습니다. 동일한 변환기가 훈련 및 추론 시 둘 다 작동하기 때문에 모델을 유지하기 위해 전처리 및 특징 엔지니어링 로직을 복제하거나 자체적인 1회성 솔루션을 개발할 필요가 없습니다. 추론 파이프라인을 사용하면 외부 인프라를 유지할 필요가 없으며 데이터 입력을 통해 예측을 직접 수행할 수 있습니다.

에서 Spark ML 작업을 실행하면 AWS Glue Spark ML 파이프라인이 MLeap 형식으로 직렬화됩니다. 그런 다음 SageMaker AI 추론 파이프라인에서 SparkML 모델 서빙 컨테이너와 함께 작업을 사용할 수 있습니다. MLeap은 기계 학습 파이프라인을 위한 직렬화 형식 및 실행 엔진으로, 파이프라인을 훈련하고 훈련된 파이프라인을 MLeap 번들이라는 직렬화된 파이프라인으로 내보내기 위해 Spark, Scikit-learn 및 TensorFlow를 지원합니다. 이러한 번들은 배치 모드 채점을 위해 Spark로, 실시간 API 서비스 강화를 위해 MLeap 런타임으로 다시 역직렬화할 수 있습니다.

Spark ML을 사용한 프로세스 기능을 보여주는 예제는 Amazon EMR에서 Apache Spark를 사용하여 ML 모델 훈련 및 SageMaker AI 샘플 노트북에서 배포를 참조하세요.

Scikit-Learn을 사용하여 특징 처리

scikit-learn 작업을 실행하고 Amazon SageMaker AI에서 직접 컨테이너로 패키징할 수 있습니다. Fisher's Iris flower data set에 대해 훈련하고 형태적 측정값을 기반으로 붓꽃의 품종을 예측하는 scikit-learn Featurizer 모델을 빌드하기 위한 Python 코드의 예제는 IRIS Training and Prediction with Sagemaker Scikit-learn을 참조하세요.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

추론 파이프라인

파이프라인 모델 생성

이 페이지에서

쿠키 기본 설정 선택

쿠키 기본 설정 사용자 지정

필수

성능

기능

광고

쿠키 기본 설정을 저장할 수 없음

SparkML 및 Scikit-learn을 사용하여 특징 처리

Spark ML을 사용하여 특성 처리

참고

Scikit-Learn을 사용하여 특징 처리

이 페이지에서

Related resources

페이지 내용이 도움이 되었습니까?

Related resources

다음 주제:

이전 주제:

도움이 필요하십니까?