기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Amazon SageMaker AI 기본 제공 알고리즘 또는 사용자 지정 알고리즘으로 모델을 훈련하기 전에 Spark 및 scikit-learn 프리프로세서를 사용하여 데이터를 변환하고 기능을 엔지니어링할 수 있습니다.
Spark ML을 사용하여 특성 처리
SageMaker AI 노트북에서 서버리스 ETL(추출, 변환, 로드) 서비스인 AWS Glue를 사용하여 Spark ML 작업을 실행할 수 있습니다. 또한 기존 EMR 클러스터에 연결해 Amazon EMR 사용하여 SparkML 작업을 실행할 수 있습니다. 이렇게 하려면 SageMaker AI 노트북에서 로 호출할 수 있는 권한을 부여하는 AWS Identity and Access Management (IAM) 역할이 필요합니다 AWS Glue.
참고
지원되는 Python 및 Spark 버전을 확인하려면 AWS Glue 릴리스 정보를 참조 AWS Glue 하세요.
엔지니어링 기능을 수행한 후에는 MLeap으로 Spark ML 작업을 패키지화하여 MLeap 컨테이너로 직렬화하여 추론 파이프라인에 추가할 수 있습니다. 외부 관리 Spark 클러스터를 사용할 필요가 없습니다. 이 접근 방식을 사용하면 행 샘플에서 테라바이트 단위의 데이터까지 원활하게 확장할 수 있습니다. 동일한 변환기가 훈련 및 추론 시 둘 다 작동하기 때문에 모델을 유지하기 위해 전처리 및 특징 엔지니어링 로직을 복제하거나 자체적인 1회성 솔루션을 개발할 필요가 없습니다. 추론 파이프라인을 사용하면 외부 인프라를 유지할 필요가 없으며 데이터 입력을 통해 예측을 직접 수행할 수 있습니다.
에서 Spark ML 작업을 실행하면 AWS Glue Spark ML 파이프라인이 MLeap
Spark ML을 사용한 프로세스 기능을 보여주는 예제는 Amazon EMR에서 Apache Spark를 사용하여 ML 모델 훈련 및 SageMaker AI 샘플 노트북에서 배포
Scikit-Learn을 사용하여 특징 처리
scikit-learn 작업을 실행하고 Amazon SageMaker AI에서 직접 컨테이너로 패키징할 수 있습니다. Fisher's Iris flower data set