翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
SageMaker ホスティングサービスにモデルをデプロイするためのベストプラクティス
ホスティングサービスを使用してモデルを SageMaker ホスティングする場合は、次の点を考慮してください。
-
通常、クライアントアプリケーションはエンドポイントに SageMaker HTTPSリクエストを送信して、デプロイされたモデルから推論を取得します。テスト中に Jupyter ノートブックからこのエンドポイントにリクエストを送信することもできます。
-
でトレーニングされたモデルを独自のデプロイターゲット SageMaker にデプロイできます。そのためには、モデルトレーニングによって生成されたモデルアーティファクトのアルゴリズム固有の形式を知る必要があります。出力形式の詳細については、「トレーニングの共通データ形式」の使用しているアルゴリズムに対応するセクションを参照してください。
-
モデルの複数のバリアントを同じ SageMaker HTTPSエンドポイントにデプロイできます。これは、本番環境でモデルのバリエーションをテストするのに役立ちます。たとえば、モデルを本番環境にデプロイしたとします。たとえば、5% という少量のトラフィックを新しいモデルに転送することで、モデルのバリエーションをテストします。これを行うには、モデルの両方のバリエーションを記述するエンドポイント設定を作成します。
ProductionVariant
をCreateEndPointConfig
へのリクエストに指定します。詳細については、「ProductionVariant
」を参照してください。 -
ProductionVariant
を設定すると、Application Auto Scaling を使うことができます。自動スケーリングの設定については、「Amazon SageMaker モデルの自動スケーリング」を参照してください。 -
すでに実稼働環境にデプロイされているモデルを停止中の状態にすることなく、エンドポイントを変更することができます。たとえば、新しいモデルバリアントを追加したり、既存のモデルバリアントの ML コンピューティングインスタンス設定を更新したり、モデルバリアント間のトラフィックの分散を変更することができます。エンドポイントを変更するには、新しいエンドポイント設定を指定します。 はダウンタイムなしで変更 SageMaker を実装します。詳細については、「
UpdateEndpoint
」および「UpdateEndpointWeightsAndCapacities
」を参照してください。 -
モデルアーティファクトを変更または削除したり、モデルをデプロイした後に推論コードを変更すると、予期しない結果が生じます。モデルアーティファクトの変更や削除、または推論コードの変更が必要な場合は、新しいエンドポイント設定を提供してエンドポイントを変更します。新しいエンドポイント設定を指定すると、古いエンドポイント設定に対応するモデルアーティファクトを変更または削除できます。
-
データセット全体の推論を取得するには、ホスティングサービスの代わりにバッチ変換を使用することを検討してください。詳細については、「Amazon による推論のためのバッチ変換 SageMaker」を参照してください。
複数のアベイラビリティーゾーンにインスタンスをデプロイする
モデルをホストするときに堅牢なエンドポイントを作成します。 SageMaker エンドポイントは、アベイラビリティーゾーンの停止やインスタンスの障害からアプリケーションを保護するのに役立ちます。停止が発生した場合、またはインスタンスが失敗した場合、 はアベイラビリティーゾーン間でインスタンス SageMaker を自動的に分散しようとします。このため、本番稼働用エンドポイントごとに複数のインスタンスをデプロイすることを強くお勧めします。
Amazon Virtual Private Cloud (VPC) を使用している場合は、それぞれが異なるアベイラビリティーゾーンにある Subnets
を少なくとも 2 つVPC設定します。停止が発生した場合やインスタンスが失敗した場合、Amazon はアベイラビリティーゾーン間でインスタンスの分散 SageMaker を自動的に試行します。
一般的に、より信頼性の高いパフォーマンスを実現するには、さまざまなアベイラビリティーゾーンでより小さなインスタンスタイプを使用してエンドポイントをホストします。
高可用性のために推論コンポーネントをデプロイします。インスタンス番号に関する上記の推奨事項に加えて、99.95% の可用性を実現するには、推論コンポーネントが 3 つ以上のコピーを持つように設定されていることを確認します。さらに、マネージド自動スケーリングポリシーでは、インスタンスの最小数も 2 に設定します。