기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
주성분 분석 (PCA) 알고리즘
PCA최대한 많은 정보를 유지하면서 데이터세트 내의 차원 (특징 수) 을 줄이려는 비지도 기계 학습 알고리즘입니다. 이는 성분이라고 하는 새로운 특징 세트를 찾음으로써 이루어집니다. 성분은 다른 특징과 상관 관계가 없는 기존 특징의 복합 객체입니다. 또한 제약이 되어 있기 때문에 첫 번째 성분은 데이터에서 가능성이 가장 큰 변수를 처리하고, 두 번째 성분은 두 번째로 큰 변수를 처리합니다.
SageMakerAmazon에서는 시나리오에 따라 두 가지 모드로 PCA 작동합니다.
-
regular: 희소 데이터와 적당한 수의 관측치 및 특징이 포함된 데이터 세트.
-
randomized: 많은 수의 관측치 및 특징이 포함된 데이터 세트. 이 모드는 근사치 알고리즘을 사용합니다.
PCA표 형식의 데이터를 사용합니다.
행은 저차원 공간에 임베딩하고자 하는 관측치를 나타냅니다. 열은 축소된 근사치를 찾고자 하는 특징을 나타냅니다. 알고리즘은 공분산 매트릭스(또는 분산 방식의 근사치)를 계산한 다음 이 요약에 대해 단수 값 분해를 수행하여 주성분을 생산합니다.
알고리즘의 입력/출력 인터페이스 PCA
훈련의 경우, 트레인 채널에서 데이터가 제공될 PCA 것으로 예상하고, 선택적으로 테스트 데이터셋으로 전달된 데이터세트를 지원하며, 이 데이터셋은 최종 알고리즘으로 점수를 매깁니다. recordIO-wrapped-protobuf
형식과 CSV
형식 모두 훈련에 지원됩니다. 파일 모드 또는 파이프 모드를 사용하여 recordIO-wrapped-protobuf
또는 CSV
로 형식이 지정된 데이터에 대해 모델을 훈련할 수 있습니다.
추론의 경우, 및 PCA 를 지원합니다text/csv
. application/json
application/x-recordio-protobuf
결과는 ‘프로젝션’의 벡터를 포함한 application/json
또는 application/x-recordio-protobuf
형식으로 반환됩니다.
입력 및 출력 파일 형식에 대한 자세한 정보는 PCA응답 형식(추론의 경우) 및 PCA 샘플 노트북 단원을 참조하세요.
EC2알고리즘에 PCA 대한 인스턴스 권장 사항
PCA학습 CPU 및 추론을 위한 지원 및 GPU 인스턴스. 어떤 인스턴스 유형의 성능이 뛰어난지는 입력 데이터의 세부 사항에 따라 크게 다릅니다. 예를 들어GPU, P2, P3, G4dn 및 G5를 PCA 지원합니다.
PCA 샘플 노트북
SageMaker 주성분 분석 알고리즘을 사용하여 MNIST 데이터셋에서 0부터 9까지의 손으로 쓴 숫자 이미지를 분석하는 방법을 보여주는 샘플 노트북은 with 소개를 참조하십시오. PCA MNIST