

 **이 페이지 개선에 도움 주기** 

이 사용자 가이드에 기여하려면 모든 페이지의 오른쪽 창에 있는 **GitHub에서 이 페이지 편집** 링크를 선택합니다.

# Amazon EKS의 인공 지능(AI) 및 기계 학습(ML) 개요
<a name="machine-learning-on-eks"></a>

Amazon Elastic Kubernetes Service(EKS)는 조직이 탁월한 유연성과 제어력을 바탕으로 AI 및 기계 학습(ML) 워크로드를 배포, 관리 및 확장할 수 있도록 지원하는 관리형 Kubernetes 플랫폼입니다. 오픈 소스 Kubernetes 에코시스템을 기반으로 구축된 EKS를 사용하면 기존 Kubernetes 전문 지식을 활용하면서 오픈 소스 도구 및 AWS 서비스와 원활하게 통합할 수 있습니다.

대규모 모델 훈련, 실시간 온라인 추론 실행, 생성형 AI 애플리케이션 배포 등 어떤 작업을 수행하든 EKS는 AI/ML 프로젝트에 필요한 성능, 확장성, 비용 효율성을 제공합니다.

## AI/ML용 EKS를 선택해야 하는 이유
<a name="_why_choose_eks_for_aiml"></a>

EKS는 복잡한 AI/ML 워크로드를 배포하고 관리하는 데 도움이 되는 관리형 Kubernetes 플랫폼입니다. 오픈 소스 Kubernetes 에코시스템을 기반으로 구축되었으며 AWS 서비스와 통합되어 고급 프로젝트에 필요한 제어 및 확장성을 제공합니다. AI/ML 배포를 처음 접하는 팀의 경우 기존 Kubernetes 기술이 바로 이전되므로 여러 워크로드를 효율적으로 오케스트레이션할 수 있습니다.

EKS는 운영 체제 사용자 지정부터 컴퓨팅 스케일링까지 모든 것을 지원하며, 오픈 소스 기반은 기술적 유연성을 촉진하여 향후 인프라 결정을 위한 선택의 폭을 넓혀줍니다. 이 플랫폼은 다음과 같은 기능을 지원하여 AI/ML 워크로드에 필요한 성능 및 튜닝 옵션을 제공합니다.
+ 숨겨진 추상화 없이 비용과 구성을 미세 조정할 수 있는 전체 클러스터 제어
+ 프로덕션 환경에서 실시간 추론 워크로드에 대한 1초 미만의 지연 시간
+ 멀티 인스턴스 GPU, 멀티 클라우드 전략, OS 수준 튜닝과 같은 고급 사용자 지정
+ AI/ML 파이프라인 전반에서 통합 오케스트레이터로 EKS를 사용하여 워크로드를 중앙 집중화하는 기능

## 주요 사용 사례
<a name="_key_use_cases"></a>

Amazon EKS는 다양한 기술과 배포 패턴을 지원하여 광범위한 AI/ML 워크로드를 위한 강력한 플랫폼을 제공합니다.
+  **실시간(온라인) 추론:** EKS는 Amazon EC2 [Inf1](https://aws.amazon.com/ec2/instance-types/inf1/) 및 [Inf2](https://aws.amazon.com/ec2/instance-types/inf2/) 인스턴스에서 [TorchServe](https://docs.aws.amazon.com/dlami/latest/devguide/tutorial-torchserve.html), [Triton Inference Server](https://aws.amazon.com/blogs/containers/quora-3x-faster-machine-learning-25-lower-costs-with-nvidia-triton-on-amazon-eks/), [KServe](https://kserve.github.io/website/0.8/get_started/first_isvc/)와 같은 도구를 사용하여 1초 미만의 지연 시간으로 사기 탐지와 같은 수신 데이터에 대한 즉각적인 예측을 수행합니다. 이러한 워크로드는 [Karpenter](https://karpenter.sh/) 및 [KEDA](https://keda.sh/)를 통한 동적 스케일링의 이점을 누리는 동시에 포드 간 모델 샤딩을 위해 [Amazon EFS](https://aws.amazon.com/efs/)를 활용합니다. [Amazon ECR 풀스루 캐시(PTC)](https://docs.aws.amazon.com/AmazonECR/latest/userguide/pull-through-cache-creating-rule.html)는 모델 업데이트를 가속화하고, [Amazon EBS](https://docs.aws.amazon.com/ebs/latest/userguide/what-is-ebs.html) 최적화 볼륨을 갖춘 [Bottlerocket](https://aws.amazon.com/bottlerocket/) 데이터 볼륨은 빠른 데이터 액세스를 보장합니다.
+  **일반 모델 훈련:** 조직은 EKS를 활용하여 [Amazon EC2 P4d](https://aws.amazon.com/ec2/instance-types/p4/) 및 [Amazon EC2 Trn1](https://aws.amazon.com/ec2/instance-types/trn1/) 인스턴스에서 [Kubeflow 훈련 운영자(KRO)](https://www.kubeflow.org/docs/components/trainer/), [Ray Serve](https://docs.ray.io/en/latest/serve/index.html) 및 [Torch Distributed Elastic](https://pytorch.org/docs/stable/distributed.elastic.html)을 사용해 장기간에 걸쳐 대규모 데이터세트에서 복잡한 모델을 훈련합니다. 이러한 워크로드는 [Volcano](https://volcano.sh/en/#home_slider), [Yunikorn](https://yunikorn.apache.org/), [Kueue](https://kueue.sigs.k8s.io/)와 같은 도구를 사용한 배치 예약에서 지원됩니다. [Amazon EFS](https://aws.amazon.com/efs/)를 사용하면 모델 체크포인트를 공유할 수 있으며 [Amazon S3](https://aws.amazon.com/s3/)는 버전 관리를 위한 수명 주기 정책에 따라 모델 가져오기/내보내기를 처리합니다.
+  **검색 증강 생성(RAG) 파이프라인:** EKS는 검색 및 생성 프로세스를 통합하여 고객 지원 챗봇 및 이와 유사한 애플리케이션을 관리합니다. 이러한 워크로드는 오케스트레이션을 위한 [Argo Workflows](https://argoproj.github.io/workflows/), [Kubeflow](https://www.kubeflow.org/) 등의 도구, [Pinecone](https://www.pinecone.io/blog/serverless/), [Weaviate](https://weaviate.io/) 등의 벡터 데이터베이스 또는 [Amazon OpenSearch](https://aws.amazon.com/opensearch-service/)를 사용하며 [Application Load Balancer Controller(LBC)](aws-load-balancer-controller.md)를 통해 애플리케이션을 사용자에게 노출하는 경우가 많습니다. [NVIDIA NIM](https://docs.nvidia.com/nim/index.html)은 GPU 활용도를 최적화하고, [Prometheus](prometheus.md)와 [Grafana](https://aws.amazon.com/grafana/)는 리소스 사용량을 모니터링합니다.
+  **생성형 AI 모델 배포:** 기업은 Amazon [EC2 G5](https://aws.amazon.com/ec2/instance-types/g5/) 및 [Inferentia](https://aws.amazon.com/ai/machine-learning/inferentia/) 액셀러레이터에서 [Ray Serve](https://docs.ray.io/en/latest/serve/index.html), [vLLM](https://github.com/vllm-project/vllm) 및 [Triton Inference Server](https://aws.amazon.com/blogs/containers/quora-3x-faster-machine-learning-25-lower-costs-with-nvidia-triton-on-amazon-eks/)를 사용하여 텍스트나 이미지 생성과 같은 실시간 콘텐츠 생성 서비스를 EKS에 배포합니다. 이러한 배포는 대규모 모델의 성능과 메모리 사용률을 최적화합니다. [JupyterHub](https://jupyter.org/hub)는 반복 개발을 가능하게 하고, [Gradio](https://www.gradio.app/)는 간단한 웹 인터페이스를 제공하며, [S3 Mountpoint CSI 드라이버](s3-csi.md)는 대용량 모델 파일에 액세스하기 위한 파일 시스템으로 S3 버킷을 마운트할 수 있게 합니다.
+  **배치(오프라인) 추론:** 조직은 [AWS Batch](https://docs.aws.amazon.com/batch/latest/userguide/what-is-batch.html) 또는 [Volcano](https://volcano.sh/en/docs/schduler_introduction/)를 사용하여 예약된 작업을 통해 대규모 데이터세트를 효율적으로 처리합니다. 이러한 워크로드는 AWS [Inferentia](https://aws.amazon.com/ai/machine-learning/inferentia/) 칩용 [Inf1](https://aws.amazon.com/ec2/instance-types/inf1/) 및 [Inf2](https://aws.amazon.com/ec2/instance-types/inf2/) 인스턴스, NVIDIA T4 GPU용 Amazon EC2 [G4dn](https://aws.amazon.com/ec2/instance-types/g4/) 인스턴스 또는 [c5](https://aws.amazon.com/ec2/instance-types/c5/) 및 [c6i](https://aws.amazon.com/ec2/instance-types/c6i) CPU 인스턴스를 사용하여 분석 작업의 피크 외 시간 동안 리소스 사용률을 극대화하는 경우가 많습니다. [AWS Neuron SDK](https://aws.amazon.com/ai/machine-learning/neuron/) 및 NVIDIA GPU 드라이버는 성능을 최적화하고, MIG/TS는 GPU 공유를 가능하게 합니다. 스토리지 솔루션에는 다양한 스토리지 클래스를 위한 CSI 드라이버와 함께 [Amazon S3](https://aws.amazon.com/s3/), Amazon [EFS](https://aws.amazon.com/efs/) 및 [FSx for Lustre](https://aws.amazon.com/fsx/lustre/)가 포함됩니다. 모델 관리는 [Kubeflow Pipelines](https://www.kubeflow.org/docs/components/pipelines/), [Argo Workflows](https://argoproj.github.io/workflows/), [Ray Cluster](https://docs.ray.io/en/latest/cluster/getting-started.html)와 같은 도구를 활용하고, 모니터링은 [Prometheus](prometheus.md), [Grafana](https://aws.amazon.com/grafana/) 및 사용자 지정 모델 모니터링 도구로 처리됩니다.

## 사례 연구
<a name="_case_studies"></a>

고객은 다음 사례 연구와 같이 GPU 사용량 최적화 또는 1초 미만의 지연 시간으로 실시간 추론 워크로드 실행 등의 다양한 이유로 Amazon EKS를 선택합니다. Amazon EKS에 대한 모든 사례 연구 목록은 [AWS 고객 성공 사례](https://aws.amazon.com/solutions/case-studies/browse-customer-success-stories/?refid=cr_card&customer-references-cards.sort-by=item.additionalFields.sortDate&customer-references-cards.sort-order=desc&awsf.customer-references-location=*all&awsf.customer-references-industry=*all&awsf.customer-references-use-case=*all&awsf.language=language%23english&awsf.customer-references-segment=*all&awsf.content-type=*all&awsf.customer-references-product=product%23eks&awsm.page-customer-references-cards=1)를 참조하세요.
+  [Unitary](https://aws.amazon.com/solutions/case-studies/unitary-eks-case-study/?did=cr_card&trk=cr_card)는 높은 처리량과 지연 시간이 짧은 추론이 필요한 콘텐츠 조정에 AI를 사용하여 매일 2,600만 개의 동영상을 처리하며, 컨테이너 부팅 시간을 80% 단축하여 트래픽 변동에 따른 스케일링 이벤트에 빠르게 대응할 수 있습니다.
+  전 세계 7,000만 명의 사용자를 지원하는 시각적 협업 플랫폼인 [Miro](https://aws.amazon.com/solutions/case-studies/miro-eks-case-study/)는 이전의 자체 관리형 Kubernetes 클러스터에 비해 컴퓨팅 비용이 80% 절감되었다고 보고했습니다.
+  고객이 텍스트 프롬프트에서 사실적인 동영상을 제작할 수 있도록 생성형 AI 동영상 제작 서비스를 제공하는 [Synthesia](https://aws.amazon.com/solutions/case-studies/synthesia-case-study/?did=cr_card&trk=cr_card)는 ML 모델 훈련 처리량을 30배 향상시켰습니다.
+  호텔 업계에서 HR 기술을 제공하는 [Harri](https://aws.amazon.com/solutions/case-studies/harri-eks-case-study/?did=cr_card&trk=cr_card)는 [AWS Graviton 프로세서](https://aws.amazon.com/ec2/graviton/)로 마이그레이션하여 수요 급증에 대응하여 스케일링 속도를 90% 높이고 컴퓨팅 비용을 30% 절감했습니다.
+  AI 기반 고객 서비스 자동화 회사인 [Ada Support](https://aws.amazon.com/solutions/case-studies/ada-support-eks-case-study/)는 컴퓨팅 비용을 15% 절감하고 컴퓨팅 효율성을 30% 향상시켰습니다.
+  기업이 파운데이션 모델과 대규모 언어 모델을 구축하고 조정할 수 있도록 지원하는 [Snorkel AI](https://aws.amazon.com/blogs/startups/how-snorkel-ai-achieved-over-40-cost-savings-by-scaling-machine-learning-workloads-using-amazon-eks/)는 GPU 리소스에 대한 지능형 스케일링 메커니즘을 구현하여 40% 이상의 비용 절감을 달성했습니다.

## EKS에서 기계 학습 사용 시작
<a name="_start_using_machine_learning_on_eks"></a>

AWS 클라우드의 EKS에서 기계 학습 플랫폼 및 워크로드에 대한 계획 수립 및 사용을 시작하려면 [Amazon EKS에서 AI/ML을 시작하기 위한 리소스](ml-resources.md) 섹션으로 이동합니다.