기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Amazon의 내장 알고리즘 및 사전 훈련된 모델 SageMaker
Amazon SageMaker 은 데이터 사이언티스트와 기계 학습 실무자가 기계 학습 모델을 빠르게 훈련하고 배포할 수 있도록 지원하는 내장 알고리즘, 사전 훈련된 모델 및 사전 구축된 솔루션 템플릿 제품군을 제공합니다. 를 처음 사용하는 사람의 경우 특정 사용 사례에 적합한 알고리즘을 SageMaker선택하는 것이 어려운 작업일 수 있습니다. 다음 표에서는 예제 문제 또는 사용 사례로 시작하고 해당 문제 유형에 SageMaker 유효한 에서 제공하는 적절한 내장 알고리즘을 찾는 방법을 보여주는 빠른 치트 시트를 제공합니다. 학습 패러다임(지도 및 비지도)과 중요한 데이터 도메인(텍스트 및 이미지)별로 구성된 추가 지침은 테이블 아래 섹션에 나와 있습니다.
테이블: 사용 사례를 기본 제공 알고리즘에 매핑
예제 문제 및 사용 사례 | 학습 패러다임 또는 도메인 | 문제 유형 | 데이터 입력 형식 | 기본 제공 알고리즘 |
---|---|---|---|---|
다음은 에서 제공하는 사전 훈련된 모델 및 사전 구축된 솔루션 템플릿을 통해 해결할 수 있는 15가지 문제 유형 중 몇 가지 예입니다 SageMaker JumpStart. 질문 응답: 주어진 질문에 대한 답변을 출력하는 챗봇입니다. 텍스트 분석: 금융과 같은 특정 산업 영역에 대한 모델의 텍스트를 분석합니다. |
사전 훈련된 모델 및 사전 구축된 솔루션 템플릿 |
이미지 분류 테이블 형식 분류 테이블 형식 회귀 텍스트 분류 객체 감지 텍스트 임베딩 질문 응답 문장 쌍 분류 이미지 임베딩 개체명 인식 인스턴스 세분화 텍스트 생성 텍스트 요약 의미 체계 분할 기계 번역 |
이미지, 텍스트, 테이블 형식 | Mobilenet, , Faster R-YOLO, CNN, BERTLight GBM및 등 인기 모델 CatBoost 사용 가능한 사전 훈련된 모델 목록은 JumpStart 모델 섹션을 참조하세요. 사용 가능한 사전 구축된 솔루션 템플릿 목록은 JumpStart 솔루션 섹션을 참조하세요. |
항목이 범주에 속하는지 예측: 이메일 스팸 필터 |
바이너리/멀티클래스 분류 |
테이블 형식 |
AutoGluon- 테이블 형식, CatBoost, Factorization Machine 알고리즘, K-Nearest Neighbors(k-NN) 알고리즘, 라이트GBM, 선형 학습자 알고리즘, TabTransformer, XGBoost Amazon 알고리즘 SageMaker |
|
숫자/연속 값 예측: 주택 가치 추정 |
회귀 |
테이블 형식 |
AutoGluon- 테이블 형식, CatBoost, Factorization Machine 알고리즘, K-Nearest Neighbors(k-NN) 알고리즘, 라이트GBM, 선형 학습자 알고리즘, TabTransformer, XGBoost Amazon 알고리즘 SageMaker |
|
행동에 대한 과거 데이터를 기반으로 미래 행동 예측: 이전 판매 데이터를 기반으로 신제품의 판매 예측 |
시계열 예측 |
테이블 형식 | ||
고차원 객체의 데이터 임베딩 개선: 중복된 지원 티켓을 식별하거나 티켓에 있는 텍스트의 유사성을 기반으로 올바른 경로 찾기 |
임베딩: 고차원 객체를 저차원 공간으로 변환 | 테이블 형식 | Object2Vec 알고리즘 | |
데이터 세트에서 레이블/대상 변수와의 관련성이 약한 열 삭제: 마일리지를 예측할 때 차의 색상 |
비지도 학습 |
특성 추출: 차원 축소 |
테이블 형식 | |
애플리케이션 내 비정상 동작 감지: IoT 센서가 비정상 판독값을 전송하는 경우 파악 |
이상 탐지 |
테이블 형식 | ||
의심스러운 사용자로부터 애플리케이션 보호: 서비스에 액세스하는 IP 주소가 악의적인 공격자인지 탐지 |
IP 이상 탐지 |
테이블 형식 | ||
유사한 객체/데이터 그룹화: 거래 내역에서 지출이 많은 고객, 보통인 고객, 적은 고객 찾기 |
클러스터링 또는 그룹화 |
테이블 형식 | ||
문서 세트를 주제별로 정리(사전에 알려지지 않음): 문서에 사용된 용어에 따라 의료 범주에 속하는 것으로 문서에 태그 지정 |
주제 모델링 |
텍스트 | ||
코퍼스의 문서에 사전 정의된 범주 할당: 도서관의 책을 학문 분야별로 분류 |
텍스트 분류 |
텍스트 | ||
텍스트를 한 언어에서 다른 언어로 변환: 스페인어에서 영어로 |
기계 번역 알고리즘 |
텍스트 | ||
긴 텍스트 코퍼스 요약: 연구 논문 초록 |
텍스트 요약 |
텍스트 | ||
오디오 파일을 텍스트로 변환: 추가 분석을 위해 콜센터 대화를 텍스트로 변환 |
Speech-to-text |
텍스트 | ||
이미지 콘텐츠를 기반으로 이미지에 레이블 또는 태그 지정: 이미지 내 성인용 콘텐츠에 대한 알림 |
이미지 프로세싱 |
이미지 및 다중 레이블 분류 |
이미지 | |
전이 학습을 사용하여 이미지의 물체 분류 |
이미지 분류 | 이미지 | ||
이미지 속 사람과 사물 탐지: 경찰이 실종자 수색을 위해 대규모 사진 갤러리 검토 |
객체 감지 및 분류 |
이미지 | ||
이미지의 모든 픽셀에 범주를 지정하여 개별적으로 태그 지정: 객체를 식별할 준비를 하는 자율 주행 차량 |
컴퓨터 비전 |
이미지 |
에서 제공하는 모든 기본 제공 알고리즘에 공통적으로 사용되는 다음 항목에 대한 중요 정보는 섹션을 SageMaker참조하세요기본 제공 알고리즘에 대한 파라미터.
-
Docker 레지스트리 경로
-
데이터 형식
-
권장 Amazon EC2 인스턴스 유형
-
CloudWatch 로그
다음 섹션에서는 Amazon SageMaker 기본 제공 알고리즘이 속한 감독 및 비감독 학습 패러다임별로 그룹화된 추가 지침을 제공합니다. 이러한 학습 패러다임 및 관련 문제 유형에 대한 설명은 알고리즘 유형 섹션을 참조하세요. 텍스트 분석 및 이미지 처리라는 두 가지 중요한 기계 학습 도메인을 처리하는 데 사용할 수 있는 SageMaker 내장 알고리즘에 대한 섹션도 제공됩니다.
사전 훈련된 모델 및 솔루션 템플릿
SageMaker JumpStart 는 광범위한 사전 훈련된 모델, 사전 구축된 솔루션 템플릿 및 인기 있는 문제 유형에 대한 예제를 제공합니다. 이들은 와 Studio Classic을 사용합니다 SageMaker SDK. 이러한 모델, 솔루션 및 에서 제공하는 예제 노트북에 대한 자세한 내용은 섹션을 SageMaker JumpStart참조하세요SageMaker JumpStart 사전 훈련된 모델.
지도 학습
Amazon SageMaker 은 분류 또는 회귀 문제에 사용할 수 있는 몇 가지 내장 범용 알고리즘을 제공합니다.
-
AutoGluon- 테이블 형식 - 모델을 앙상블하고 여러 레이어로 쌓아 승계하는 오픈 소스 AutoML 프레임워크.
-
CatBoost - 그라디언트 부스트 트리 알고리즘의 구현으로, 순서가 있는 부스팅과 범주형 특성 처리를 위한 혁신적인 알고리즘의 구현.
-
Factorization Machine 알고리즘 - 고차원 저밀도 데이터 세트 내 특성 간 상호 작용을 경제적으로 캡처하도록 설계된 선형 모델의 확장.
-
K-Nearest Neighbors(k-NN) 알고리즘- 가장 가까운 레이블이 지정된 k 점을 사용하여 값을 할당하는 비모수적 메서드입니다. 분류의 경우 새 데이터 포인트의 레이블입니다. 회귀의 경우 가장 가까운 k 포인트의 평균에서 예측된 목표 값입니다.
-
라이트GBM- 효율성과 확장성을 높이기 위해 두 가지 새로운 기법을 추가하는 그라데이션 부스트 트리 알고리즘의 구현입니다. 이 두 가지 새로운 기법은 그라데이션 기반 원사이드 샘플링(GOSS)과 독점 기능 번들링()입니다EFB.
-
선형 학습자 알고리즘 - 회귀를 위한 선형 함수 또는 분류를 위한 선형 임계값 함수를 학습합니다.
-
TabTransformer—트랜스포머를 기반으로 self-attention-based 구축된 새로운 심층 테이블 형식 데이터 모델링 아키텍처입니다.
-
XGBoost Amazon 알고리즘 SageMaker - 더 간단하고 약한 모델 세트의 예상치 앙상블을 결합하는 그라디언트 부스트 트리 알고리즘의 구현.
SageMaker 또한 Amazon은 시계열 데이터에서 특성 엔지니어링 및 예측 중에 보다 전문화된 작업에 사용되는 여러 가지 기본 제공 감독형 학습 알고리즘을 제공합니다.
-
Object2Vec 알고리즘 - 특성 추출에 사용되는 고도로 사용자 지정이 가능한 새로운 다목적 알고리즘. 고차원 객체의 저차원 밀도 임베딩을 학습하여 다운스트림 모델의 훈련 효율성을 향상시키는 특성을 생성할 수 있습니다. 이는 감독형 알고리즘이지만 데이터의 자연 클러스터링에서만 관계 레이블을 얻을 수 있는 많은 시나리오가 있습니다. 훈련을 위해 레이블이 지정된 데이터가 필요하지만 명시적인 인적 주석 없이도 발생할 수 있습니다.
-
SageMaker DeepAR 예측 알고리즘 사용—반복 신경망()을 사용하여 스칼라(1차원) 시계열을 예측하기 위한 감독 학습 알고리즘입니다RNN.
비지도 학습
Amazon SageMaker 은 다양한 비지도 학습 작업에 사용할 수 있는 몇 가지 기본 제공 알고리즘을 제공합니다. 이러한 작업에는 클러스터링, 차원 축소, 패턴 인식, 이상 탐지 등이 포함됩니다.
-
주성분 분석 (PCA) 알고리즘 - 처음 몇 개의 주요 구성 요소에 데이터 포인트를 프로젝션하여 데이터 세트 내의 차원(특성 수)을 줄입니다. 목표는 가능한 한 많은 정보나 변형을 유지하는 것입니다. 수학자의 경우 주요 구성 요소은 데이터 공분산 행렬의 고유벡터입니다.
-
k-means 알고리즘- 데이터 내에서 이산 그룹화를 찾습니다. 이는 그룹의 구성원이 서로 가능한 한 유사하고 다른 그룹의 구성원과 가능한 한 다른 경우에 발생합니다.
-
IP Insights- IPv4 주소의 사용 패턴을 알아봅니다. IPv4 주소와 사용자 IDs 또는 계정 번호와 같은 다양한 엔터티 간의 연결을 캡처하도록 설계되었습니다.
-
랜덤 컷 포리스트(RCF) 알고리즘 - 데이터 세트 내에서 제대로 구조화되거나 패턴이 있는 데이터와 다른 비정상적인 데이터 포인트를 탐지합니다.
텍스트 분석
SageMaker 는 텍스트 문서 분석에 맞게 조정된 알고리즘을 제공합니다. 여기에는 자연어 처리, 문서 분류 또는 요약, 주제 모델링 또는 분류, 언어 트랜스크립션 또는 번역에 사용되는 텍스트가 포함됩니다.
-
BlazingText 알고리듬 - 대규모 데이터 세트로 쉽게 확장할 수 있는 Word2vec 및 텍스트 분류 알고리즘의 고도로 최적화된 구현. 여러 다운스트림 자연어 처리(NLP) 작업에 유용합니다.
-
Sequence-to-Sequence 알고리즘 - 신경망 기계 번역에 일반적으로 사용되는 감독형 알고리즘.
-
Latent Dirichlet Allocation(LDA) 알고리즘 - 여러 문서에서 주제를 결정하는 데 적합한 알고리즘. 비지도 알고리즘으로 훈련 중 답이 포함된 예제 데이터를 사용하지 않습니다.
-
신경 주제 모델(NTM) 알고리즘 - 신경망 접근 방식을 사용하여 여러 문서에서 주제를 결정하는 또 다른 비지도 기법.
-
텍스트 분류 - TensorFlow - 텍스트 분류에 사용할 수 있는 사전 훈련된 모델을 사용하여 전이 학습을 지원하는 지도 알고리즘.
이미지 프로세싱
SageMaker 는 이미지 분류, 객체 감지 및 컴퓨터 비전에 사용되는 이미지 처리 알고리즘도 제공합니다.
-
이미지 분류 - MXNet - 답이 포함된 예제 데이터를 사용합니다(지도 알고리즘이라고 함). 이 알고리즘을 사용하여 이미지를 분류할 수 있습니다.
-
이미지 분류 - TensorFlow—사전 훈련된 TensorFlow Hub 모델을 사용하여 특정 작업(감독형 알고리즘이라고 함)을 미세 조정합니다. 이 알고리즘을 사용하여 이미지를 분류할 수 있습니다.
-
의미 체계 분할 알고리즘 - 컴퓨터 비전 응용 분야를 개발하는 데 세분화된 픽셀 수준 접근 방식을 제공합니다.
-
객체 감지 - MXNet - 단일 심층 신경망을 사용하여 이미지의 물체를 감지하고 분류합니다. 이 알고리즘은 입력으로 이미지를 가져와 이미지 장면 내에서 객체의 모든 인스턴스를 식별하는 지도 학습 알고리즘입니다.
-
객체 감지 - TensorFlow - 이미지에서 경계 상자와 객체 레이블을 감지합니다. 이는 사전 훈련된 사용 가능한 TensorFlow 모델을 사용하여 전송 학습을 지원하는 감독형 학습 알고리즘입니다.