大規模モデル推論 (LMI) コンテナのドキュメント
大規模モデル推論 (LMI) コンテナのドキュメント
このドキュメントは、Amazon SageMaker で大規模言語モデル (LLM) をデプロイおよび最適化する必要があるデベロッパー、データサイエンティスト、機械学習エンジニア向けに書かれています。AWS が提供する LLM 推論専用の Docker コンテナである LMI コンテナを使用するうえで参考になります。内容としては、概要、デプロイガイド、サポート対象の推論ライブラリのユーザーガイド、高度なチュートリアルを扱っています。
LMI コンテナのドキュメントを参考にすると、以下のことがわかります。
-
LMI コンテナのコンポーネントとアーキテクチャを理解する
-
ユースケースに適したインスタンスタイプとバックエンドの選択方法がわかる
-
SageMaker で LMI コンテナを使用して LLM を設定およびデプロイする
-
量子化、テンソル並列処理、連続バッチ処理などの機能を使用して、パフォーマンスを最適化する
-
SageMaker エンドポイントのベンチマークとチューニングを行い、最適なスループットとレイテンシーを実現する