

 **このページの改善にご協力ください** 

このユーザーガイドに貢献するには、すべてのページの右側のペインにある「**GitHub でこのページを編集する**」リンクを選択してください。

# Amazon EKS における人工知能 (AI) と機械学習 (ML) の概要
<a name="machine-learning-on-eks"></a>

Amazon Elastic Kubernetes Service (EKS) は、比類のない柔軟性と制御性によって、組織が AI や機械学習 (ML) のワークロードをデプロイ、管理、スケーリングできるようにするマネージド Kubernetes プラットフォームです。オープンソースの Kubernetes エコシステム上に構築された EKS では、オープンソースのツールや AWS サービスとシームレスに統合しながら、既存の Kubernetes の専門知識を活用できます。

大規模なモデルのトレーニング、リアルタイムのオンライン推論の実行、生成 AI アプリケーションのデプロイなど、どのような用途であっても、EKS は AI/ML プロジェクトが必要とするパフォーマンス、スケーラビリティ、およびコスト効率を提供します。

## AI/ML のために EKS を選択すべき理由
<a name="_why_choose_eks_for_aiml"></a>

EKS は、複雑な AI/ML ワークロードのデプロイと管理に役立つマネージド Kubernetes プラットフォームです。オープンソースの Kubernetes エコシステム上に構築されており、AWS サービスとの統合によって高度なプロジェクトに必要な制御とスケーラビリティを提供します。AI/ML のデプロイが初めてのチームでも、既存の Kubernetes スキルを直接転用できるため、複数のワークロードを効率的にオーケストレーションできます。

EKS は、オペレーティングシステムのカスタマイズからコンピューティングのスケーリングまで、あらゆることをサポートしており、そのオープンソースの基盤は技術的な柔軟性を促進し、将来のインフラストラクチャに関する意思決定のための選択肢を維持します。プラットフォームは、AI/ML ワークロードに必要なパフォーマンスとチューニングのオプションを提供し、次のような機能をサポートします。
+ 隠された抽象化なしにコストと設定を微調整するための完全なクラスター制御
+ 本番環境におけるリアルタイム推論ワークロードに対する 1 秒未満のレイテンシー
+ マルチインスタンス GPU、マルチクラウド戦略、OS レベルのチューニングなどの高度なカスタマイズ
+ AI/ML パイプライン全体で統合オーケストレーターとして EKS を使用してワークロードを一元化する機能

## 主なユースケース
<a name="_key_use_cases"></a>

Amazon EKS は、幅広い AI/ML ワークロードに対応した堅牢なプラットフォームを提供し、さまざまなテクノロジーとデプロイパターンをサポートしています。
+  **リアルタイム (オンライン) 推論:** EKS は、Amazon EC2 の [Inf1](https://aws.amazon.com/ec2/instance-types/inf1/) および [Inf2](https://aws.amazon.com/ec2/instance-types/inf2/) インスタンス上で [TorchServe](https://docs.aws.amazon.com/dlami/latest/devguide/tutorial-torchserve.html)、[Triton Inference Server](https://aws.amazon.com/blogs/containers/quora-3x-faster-machine-learning-25-lower-costs-with-nvidia-triton-on-amazon-eks/)、[KServe](https://kserve.github.io/website/0.8/get_started/first_isvc/) などのツールを使用することで、不正検出などの受信データに対する即時予測を 1 秒未満のレイテンシーで実現します。これらのワークロードは、[Karpenter](https://karpenter.sh/) や [KEDA](https://keda.sh/) による動的スケーリングの恩恵を受けると同時に、[Amazon EFS](https://aws.amazon.com/efs/) を活用して複数のポッド間でモデルのシャーディングを行います。[Amazon ECR プルスルーキャッシュ (PTC)](https://docs.aws.amazon.com/AmazonECR/latest/userguide/pull-through-cache-creating-rule.html) によってモデルの更新が高速化され、[Bottlerocket](https://aws.amazon.com/bottlerocket/) データボリュームと [Amazon EBS](https://docs.aws.amazon.com/ebs/latest/userguide/what-is-ebs.html) 最適化ボリュームの組み合わせによって高速データアクセスが実現されます。
+  **一般的なモデルトレーニング:** 組織は EKS を活用して、[Amazon EC2 P4d](https://aws.amazon.com/ec2/instance-types/p4/) および [Amazon EC2 Trn1](https://aws.amazon.com/ec2/instance-types/trn1/) インスタンス上で [Kubeflow Training Operator](https://www.kubeflow.org/docs/components/trainer/)、[Ray Serve](https://docs.ray.io/en/latest/serve/index.html)、[Torch Distributed Elastic](https://pytorch.org/docs/stable/distributed.elastic.html) を使用することで、大規模なデータセットの複雑なモデルを長期間にわたってトレーニングします。これらのワークロードは、[Volcano](https://volcano.sh/en/#home_slider)、[Yunikorn](https://yunikorn.apache.org/)、[Kueue](https://kueue.sigs.k8s.io/) などのツールを使用したバッチスケジューリングによってサポートされています。[Amazon EFS](https://aws.amazon.com/efs/) はモデルチェックポイントの共有を可能にし、[Amazon S3](https://aws.amazon.com/s3/) はバージョン管理のためのライフサイクルポリシーを使用してモデルのインポート/エクスポートを処理します。
+  **検索拡張生成 (RAG) パイプライン:** EKS は、検索プロセスと生成プロセスを統合することで、カスタマーサポートのチャットボットや同様のアプリケーションを管理します。これらのワークロードでは、多くの場合、オーケストレーションに [Argo Workflows](https://argoproj.github.io/workflows/) や [Kubeflow](https://www.kubeflow.org/) などのツール、[Pinecone](https://www.pinecone.io/blog/serverless/)、[Weaviate](https://weaviate.io/)、[Amazon OpenSearch](https://aws.amazon.com/opensearch-service/) などのベクトルデータベースを使用し、[Application Load Balancer Controller (LBC)](aws-load-balancer-controller.md) を介してアプリケーションをユーザーに公開します。[NVIDIA NIM](https://docs.nvidia.com/nim/index.html) は GPU 使用率を最適化し、[Prometheus](prometheus.md) と [Grafana](https://aws.amazon.com/grafana/) はリソース使用率をモニタリングします。
+  **生成 AI モデルのデプロイ:** 企業は、Amazon [EC2 G5](https://aws.amazon.com/ec2/instance-types/g5/) や [Inferentia](https://aws.amazon.com/ai/machine-learning/inferentia/) アクセラレータ上で [Ray Serve](https://docs.ray.io/en/latest/serve/index.html)、[vLLM](https://github.com/vllm-project/vllm)、[Triton Inference Server](https://aws.amazon.com/blogs/containers/quora-3x-faster-machine-learning-25-lower-costs-with-nvidia-triton-on-amazon-eks/) を使用して、EKS 上にテキスト生成や画像生成などのリアルタイムコンテンツ生成サービスをデプロイしています。これらのデプロイは、大規模なモデルにおけるパフォーマンスとメモリ使用率を最適化します。[JupyterHub](https://jupyter.org/hub) は反復型開発を可能にし、[Gradio](https://www.gradio.app/) はシンプルな Web インターフェイスを提供し、[S3 Mountpoint CSI ドライバー](s3-csi.md) は大規模なモデルファイルにアクセスするために S3 バケットをファイルシステムとしてマウントすることを可能にします。
+  **バッチ (オフライン) 推論:** 組織は、[AWS Batch](https://docs.aws.amazon.com/batch/latest/userguide/what-is-batch.html) や [Volcano](https://volcano.sh/en/docs/schduler_introduction/) を使用したスケジュールジョブを通じて、大規模なデータセットを効率的に処理します。これらのワークロードでは、多くの場合、AWS [Inferentia](https://aws.amazon.com/ai/machine-learning/inferentia/) チップ向けの [Inf1](https://aws.amazon.com/ec2/instance-types/inf1/) および [Inf2](https://aws.amazon.com/ec2/instance-types/inf2/) EC2 インスタンス、NVIDIA T4 GPU 向けの Amazon EC2 [G4dn](https://aws.amazon.com/ec2/instance-types/g4/) インスタンス、あるいは [c5](https://aws.amazon.com/ec2/instance-types/c5/) および [c6i](https://aws.amazon.com/ec2/instance-types/c6i) CPU インスタンスが使用され、分析タスクに対するオフピーク時間中のリソース使用率が最大化されます。[AWS Neuron SDK](https://aws.amazon.com/ai/machine-learning/neuron/) および NVIDIA GPU ドライバーはパフォーマンスを最適化し、MIG/TS は GPU 共有を可能にします。ストレージソリューションには、[Amazon S3](https://aws.amazon.com/s3/)、Amazon [EFS](https://aws.amazon.com/efs/)、[FSx for Lustre](https://aws.amazon.com/fsx/lustre/) などがあり、さまざまなストレージクラス用の CSI ドライバーが用意されています。モデル管理は [Kubeflow Pipelines](https://www.kubeflow.org/docs/components/pipelines/)、[Argo Workflows](https://argoproj.github.io/workflows/)、[Ray クラスター](https://docs.ray.io/en/latest/cluster/getting-started.html) などのツールを活用して行われ、モニタリングは [Prometheus](prometheus.md)、[Grafana](https://aws.amazon.com/grafana/)、およびカスタムのモデルモニタリングツールによって処理されます。

## ケーススタディ
<a name="_case_studies"></a>

顧客は、以下の導入事例で示されているように、GPU 使用率の最適化や 1 秒未満のレイテンシーでのリアルタイム推論ワークロードの実行など、さまざまな理由で Amazon EKS を選択しています。Amazon EKS のすべての導入事例のリストについては、「[AWS のお客様の成功事例](https://aws.amazon.com/solutions/case-studies/browse-customer-success-stories/?refid=cr_card&customer-references-cards.sort-by=item.additionalFields.sortDate&customer-references-cards.sort-order=desc&awsf.customer-references-location=*all&awsf.customer-references-industry=*all&awsf.customer-references-use-case=*all&awsf.language=language%23english&awsf.customer-references-segment=*all&awsf.content-type=*all&awsf.customer-references-product=product%23eks&awsm.page-customer-references-cards=1)」を参照してください。
+  [Unitary](https://aws.amazon.com/solutions/case-studies/unitary-eks-case-study/?did=cr_card&trk=cr_card) は、コンテンツモデレーションのために AI を使用して毎日 2,600 万本の動画を処理しており、高スループットかつ低レイテンシーの推論を必要としています。また、コンテナのブート時間を 80% 削減することで、トラフィックの変動に応じたスケーリングイベントへの迅速な対応を実現しています。
+  [Miro](https://aws.amazon.com/solutions/case-studies/miro-eks-case-study/) は、世界中で 7,000 万人のユーザーをサポートするビジュアルコラボレーションプラットフォームであり、以前のセルフマネージド Kubernetes クラスターと比較してコンピューティングコストが 80% 削減されたと報告しています。
+  [Synthesia](https://aws.amazon.com/solutions/case-studies/synthesia-case-study/?did=cr_card&trk=cr_card) は、顧客がテキストプロンプトからリアルな動画を作成できる生成 AI 動画作成をサービスとして提供しており、ML モデルのトレーニングスループットにおいて 30 倍の向上を達成しました。
+  [Harri](https://aws.amazon.com/solutions/case-studies/harri-eks-case-study/?did=cr_card&trk=cr_card) は、ホスピタリティ業界向けに HR テクノロジーを提供しており、[AWS Graviton プロセッサ](https://aws.amazon.com/ec2/graviton/)への移行によって、需要の急増に対するスケーリングの 90% の高速化と、コンピューティングコストの 30% の削減を達成しました。
+  [Ada Support](https://aws.amazon.com/solutions/case-studies/ada-support-eks-case-study/) は、AI を活用したカスタマーサービス自動化企業であり、コンピューティングコストの 15% の削減と、コンピューティング効率の 30% の向上を達成しました。
+  [Snorkel AI](https://aws.amazon.com/blogs/startups/how-snorkel-ai-achieved-over-40-cost-savings-by-scaling-machine-learning-workloads-using-amazon-eks/) は、企業が基盤モデルと大規模言語モデルを構築および適応できるように支援しており、GPU リソース用のインテリジェントなスケーリングメカニズムを実装することで、40% 以上のコスト削減を達成しました。

## EKS での機械学習の使用を開始する
<a name="_start_using_machine_learning_on_eks"></a>

AWS クラウド上の EKS で機械学習プラットフォームとワークロードの計画と使用を開始するには[Amazon EKS で AI/ML の使用を開始するためのリソース](ml-resources.md) セクションに進みます。