주성분 분석 (PCA) 알고리즘 - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

주성분 분석 (PCA) 알고리즘

PCA최대한 많은 정보를 유지하면서 데이터세트 내의 차원 (특징 수) 을 줄이려는 비지도 기계 학습 알고리즘입니다. 이는 성분이라고 하는 새로운 특징 세트를 찾음으로써 이루어집니다. 성분은 다른 특징과 상관 관계가 없는 기존 특징의 복합 객체입니다. 또한 제약이 되어 있기 때문에 첫 번째 성분은 데이터에서 가능성이 가장 큰 변수를 처리하고, 두 번째 성분은 두 번째로 큰 변수를 처리합니다.

SageMakerAmazon에서는 시나리오에 따라 두 가지 모드로 PCA 작동합니다.

  • regular: 희소 데이터와 적당한 수의 관측치 및 특징이 포함된 데이터 세트.

  • randomized: 많은 수의 관측치 및 특징이 포함된 데이터 세트. 이 모드는 근사치 알고리즘을 사용합니다.

PCA표 형식의 데이터를 사용합니다.

행은 저차원 공간에 임베딩하고자 하는 관측치를 나타냅니다. 열은 축소된 근사치를 찾고자 하는 특징을 나타냅니다. 알고리즘은 공분산 매트릭스(또는 분산 방식의 근사치)를 계산한 다음 이 요약에 대해 단수 값 분해를 수행하여 주성분을 생산합니다.

알고리즘의 입력/출력 인터페이스 PCA

훈련의 경우, 트레인 채널에서 데이터가 제공될 PCA 것으로 예상하고, 선택적으로 테스트 데이터셋으로 전달된 데이터세트를 지원하며, 이 데이터셋은 최종 알고리즘으로 점수를 매깁니다. recordIO-wrapped-protobuf 형식과 CSV 형식 모두 훈련에 지원됩니다. 파일 모드 또는 파이프 모드를 사용하여 recordIO-wrapped-protobuf 또는 CSV로 형식이 지정된 데이터에 대해 모델을 훈련할 수 있습니다.

추론의 경우, 및 PCA 를 지원합니다text/csv. application/json application/x-recordio-protobuf 결과는 ‘프로젝션’의 벡터를 포함한 application/json 또는 application/x-recordio-protobuf 형식으로 반환됩니다.

입력 및 출력 파일 형식에 대한 자세한 정보는 PCA응답 형식(추론의 경우) 및 PCA 샘플 노트북 단원을 참조하세요.

EC2알고리즘에 PCA 대한 인스턴스 권장 사항

PCA학습 CPU 및 추론을 위한 지원 및 GPU 인스턴스. 어떤 인스턴스 유형의 성능이 뛰어난지는 입력 데이터의 세부 사항에 따라 크게 다릅니다. 예를 들어GPU, P2, P3, G4dn 및 G5를 PCA 지원합니다.

PCA 샘플 노트북

SageMaker 주성분 분석 알고리즘을 사용하여 MNIST 데이터셋에서 0부터 9까지의 손으로 쓴 숫자 이미지를 분석하는 방법을 보여주는 샘플 노트북은 with 소개를 참조하십시오. PCA MNIST 에서 예제를 실행하는 데 사용할 수 있는 Jupyter 노트북 인스턴스를 만들고 액세스하는 방법에 대한 지침은 을 참조하십시오. SageMaker Amazon SageMaker 노트북 인스턴스 Notebook 인스턴스를 생성하여 연 후 SageMaker Examples 탭을 선택하면 모든 샘플 목록이 표시됩니다. SageMaker 알고리즘을 사용한 주제 모델링 예제 노트북은 Amazon NTM 알고리즘 소개 섹션에 있습니다. 노트북을 열려면 사용 탭을 클릭하고 Create copy(사본 생성)를 선택합니다.