보안 주체 구성 요소 분석(PCA) 알고리즘 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

보안 주체 구성 요소 분석(PCA) 알고리즘

PCA는 가능한 한 많은 정보를 유지하면서 데이터 세트 내의 차원(특징 수)을 줄이려고 시도하는 비지도형 기계 학습 알고리즘입니다. 이는 성분이라고 하는 새로운 특징 세트를 찾음으로써 이루어집니다. 성분은 다른 특징과 상관 관계가 없는 기존 특징의 복합 객체입니다. 또한 제약이 되어 있기 때문에 첫 번째 성분은 데이터에서 가능성이 가장 큰 변수를 처리하고, 두 번째 성분은 두 번째로 큰 변수를 처리합니다.

Amazon SageMaker AI에서 PCA는 시나리오에 따라 두 가지 모드로 작동합니다.

  • regular: 희소 데이터와 적당한 수의 관측치 및 특징이 포함된 데이터 세트.

  • randomized: 많은 수의 관측치 및 특징이 포함된 데이터 세트. 이 모드는 근사치 알고리즘을 사용합니다.

PCA는 테이블 형식 데이터를 사용합니다.

행은 저차원 공간에 임베딩하고자 하는 관측치를 나타냅니다. 열은 축소된 근사치를 찾고자 하는 특징을 나타냅니다. 알고리즘은 공분산 매트릭스(또는 분산 방식의 근사치)를 계산한 다음 이 요약에 대해 단수 값 분해를 수행하여 주성분을 생산합니다.

PCA 알고리즘의 입력/출력 인터페이스

훈련을 위해는 훈련 채널에 제공된 데이터를 PCA 예상하고, 선택적으로 테스트 데이터 세트에 전달된 데이터 세트를 지원하며, 이는 최종 알고리즘에 의해 점수가 매겨집니다. recordIO-wrapped-protobuf 형식과 CSV 형식 모두 훈련에 지원됩니다. 파일 모드 또는 파이프 모드를 사용하여 recordIO-wrapped-protobuf 또는 CSV로 형식이 지정된 데이터에 대해 모델을 훈련할 수 있습니다.

추론의 경우는 text/csv, 및 application/json를 PCA 지원합니다application/x-recordio-protobuf. 결과는 ‘프로젝션’의 벡터를 포함한 application/json 또는 application/x-recordio-protobuf 형식으로 반환됩니다.

입력 및 출력 파일 형식에 대한 자세한 정보는 PCA 응답 형식(추론의 경우) 및 PCA 샘플 노트북 섹션을 참조하세요.

EC2 PCA 알고리즘에 대한 인스턴스 권장 사항

PCA는 훈련 및 추론을 위해 CPU 및 GPU 인스턴스를 지원합니다. 어떤 인스턴스 유형의 성능이 뛰어난지는 입력 데이터의 세부 사항에 따라 크게 다릅니다. GPU 인스턴스의 경우는 P2, P3, G4dn 및 G5를 PCA 지원합니다.

PCA 샘플 노트북

SageMaker AI Principal Component Analysis 알고리즘을 사용하여 MNIST 데이터 세트에서 0에서 9까지의 수기 숫자 이미지를 분석하는 방법을 보여주는 샘플 노트북은 PCA를 사용한 소개를 MNIST참조하세요. SageMaker AI에서 예제를 실행하는 데 사용할 수 있는 Jupyter 노트북 인스턴스를 생성하고 액세스하는 방법에 대한 지침은 섹션을 참조하세요Amazon SageMaker 노트북 인스턴스. 노트북 인스턴스를 생성하고 연 후 SageMaker AI 예제 탭을 선택하여 모든 SageMaker AI 샘플 목록을 확인합니다. NTM 알고리즘을 사용하는 주제 모델링 예제 노트북은 Amazon 알고리즘 소개 섹션에 있습니다. 노트북을 열려면 사용 탭을 클릭하고 사본 생성을 선택합니다.