기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
IP Insights
Amazon SageMaker IP Insights는 IPv4 주소의 사용 패턴을 학습하는 비지도 학습 알고리즘입니다. IPv4 주소와 여러 엔터티(예: 사용자 ID 또는 계정 번호) 간 연결을 캡처하도록 설계되어 있습니다. 이 알고리즘을 사용하여 예를 들어, 변칙적인 IP 주소에서 웹 서비스에 로그인하려고 하는 사용자를 식별할 수 있습니다. 또는 비정상적인 IP 주소에서 컴퓨팅 리소스를 생성하려고 하는 계정을 식별할 수도 있습니다. 훈련된 IP Insight 모델은 실시간 예측을 위해 엔드포인트에서 호스팅하거나 배치 변환 처리를 위해 사용할 수 있습니다.
SageMaker IP Insights는 과거 데이터를 (개체, IPv4 주소) 쌍으로 수집하고 각 엔티티의 IP 사용 패턴을 학습합니다. (개체, IPv4 주소) 이벤트로 쿼리하면 SageMaker IP Insights 모델은 이벤트 패턴이 얼마나 비정상적인지 추론하는 점수를 반환합니다. 예를 들어, 사용자가 IP 주소에서 로그인하려고 하는 경우 IP Insights 점수가 충분히 높으면 웹 로그인 서버가 멀티 팩터 인증(Multi-Factor Authentication) 시스템을 트리거하도록 결정할 수 있습니다. 고급 솔루션에서는 다른 기계 학습 모델로 IP Insights 점수를 제공할 수 있습니다. 예를 들어 IP Insight 점수를 다른 기능과 결합하여 Amazon과 같은 다른 보안 시스템의 결과 순위를 매길 수 GuardDuty 있습니다.
또한 SageMaker IP Insights 알고리즘은 임베딩이라고 하는 IP 주소의 벡터 표현을 학습할 수 있습니다. IP 주소에서 관측 정보를 사용하는 다운스트림 기계 학습 작업에서 벡터 인코딩 임베딩을 특징으로 사용할 수 있습니다. 예를 들어, 벡터 인코딩 임베딩은 클러스터링 및 시각화 작업에서 IP 주소 간 유사성을 측정하는 등 여러 작업에서 사용할 수 있습니다.
주제
IP Insights 알고리즘의 입력/출력 인터페이스
훈련 및 검증
SageMaker IP Insights 알고리즘은 교육 및 검증 데이터 채널을 지원합니다. 선택적 검증 채널을 사용하여 사전 정의된 네거티브 샘플링 전략에 대한 area-under-curve (AUC) 점수를 계산합니다. AUC 지표는 모델이 포지티브 및 네거티브 및 포지티브 샘플 간에 얼마나 잘 구분하는지를 검증합니다. 훈련 및 검증 데이터 콘텐츠 유형은 text/csv
형식이어야 합니다. CSV 데이터의 첫 번째 열은 엔터티에 대한 고유한 식별자를 제공하는 불투명 문자열입니다. 두 번째 열은 10진수 점 표기법으로 표시된 IPv4 주소입니다. IP Insights는 현재 파일 모드만 지원합니다. 자세한 내용 및 몇 가지 예제는 IP Insights 훈련 데이터 형식 단원을 참조하세요.
추론
추론의 경우 IP Insights는 text/csv
, application/json
및 application/jsonlines
데이터 콘텐츠 유형을 지원합니다. 에서 제공하는 SageMaker 추론을 위한 일반 데이터 형식에 대한 자세한 내용은 을 참조하십시오. 추론을 위한 일반적인 데이터 형식 IP Insights 추론은 application/json
또는 application/jsonlines
형식의 출력을 반환합니다. 출력 데이터의 각 레코드에는 각 입력 데이터 포인트에 대한 해당 dot_product
(또는 호환성 점수)가 포함되어 있습니다. 자세한 내용 및 몇 가지 예제는 IP Insights 추론 데이터 형식 단원을 참조하세요.
IP Insights 알고리즘에 대한 EC2 인스턴스 권장 사항
SageMaker IP Insights 알고리즘은 GPU 인스턴스와 CPU 인스턴스 모두에서 실행할 수 있습니다. 훈련 작업에는 GPU 인스턴스를 사용하는 것이 좋습니다. 그러나 큰 훈련 데이터 세트를 사용하는 특정 워크로드의 경우 분산된 CPU 인스턴스는 훈련 비용을 줄일 수 있습니다. 추론에는 CPU 인스턴스를 사용하는 것이 좋습니다. IP Insights는 P2, P3, G4dn 및 G5 GPU 패밀리를 지원합니다.
IP Insights 알고리즘에 대한 GPU 인스턴스
IP Insights는 사용 가능한 모든 GPU를 지원합니다. 훈련 속도를 높여야 하는 경우 단일 GPU 인스턴스(예: ml.p3.2xlarge)로 시작한 다음 다중 GPU 환경(예: ml.p3.8xlarge 및 ml.p3.16xlarge)으로 이전하는 것이 좋습니다. 다중 GPU는 자체 내에서 훈련 데이터의 미니 배치를 자동으로 나눕니다. 단일 GPU에서 다중 GPU로 전환하는 경우 mini_batch_size
는 사용되는 GPU 수로 균일하게 나뉩니다. 이를 보상하기 위해 mini_batch_size
의 값을 늘리려고 할 수 있습니다.
IP Insights 알고리즘에 대한 CPU 인스턴스
추천 CPU 인스턴스 유형은 주로 인스턴스의 사용 가능한 메모리 및 모델 크기에 따라 달라집니다. 모델 크기는 vector_dim
및 num_entity_vectors
이렇게 두 가지 하이퍼파라미터로 결정됩니다. 지원되는 최대 모델 크기는 8GB입니다. 다음 표에는 다양한 모델 크기에 대한 이러한 입력 파라미터를 기반으로 배포할 수 있는 일반적인 EC2 인스턴스 유형이 나열되어 있습니다. 표 1에서 첫 번째 열의 vector_dim
값 범위는 32~2048이고 첫 번째 행의 num_entity_vectors
값 범위는 10,000~50,000,000입니다.
vector_dim \
num_entity_vectors . |
10,000개 | 50,000 | 100,000 | 500,000 | 1,000,000 | 5,000,000 | 10,000,000 | 50,000,000 |
---|---|---|---|---|---|---|---|---|
32 |
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.xlarge |
ml.m5.2xlarge |
ml.m5.4xlarge |
|
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.2xlarge |
ml.m5.2xlarge |
|
|
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.2xlarge |
ml.m5.4xlarge |
|
|
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.xlarge |
ml.m5.4xlarge |
||
|
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.2xlarge |
|||
|
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.xlarge |
ml.m5.4xlarge |
|||
|
ml.m5.large |
ml.m5.large |
ml.m5.xlarge |
ml.m5.xlarge |
mini_batch_size
, num_ip_encoder_layers
, random_negative_sampling_rate
및 shuffled_negative_sampling_rate
하이퍼파라미터의 값 역시 필요한 메모리의 양에 영향을 줍니다. 이러한 값이 크면 일반 인스턴스 유형보다 더 큰 인스턴스 유형을 사용해야 할 수 있습니다.
IP Insights 샘플 노트북
SageMaker IP Insights 알고리즘을 교육하고 이를 사용하여 추론을 수행하는 방법을 보여주는 샘플 노트북은 SageMakerIP Insights 알고리즘 소개를