モデルを作成する

次の例は、 AWS SDK for Python (Boto3)を使用してモデルを作成する方法を示しています。最初の数行では、以下を定義します。

sagemaker_client: AWS サービスへのリクエストの送受信を容易にする低レベルの SageMaker AI クライアントオブジェクト。
sagemaker_role: SageMaker AI IAM ロール Amazon リソースネーム (ARN) を持つ文字列変数。
aws_region: AWS リージョンの名前を持つ文字列変数。


import boto3

# Specify your AWS Region
aws_region='<aws_region>'

# Create a low-level SageMaker service client.
sagemaker_client = boto3.client('sagemaker', region_name=aws_region)

# Role to give SageMaker permission to access AWS services.
sagemaker_role= "arn:aws:iam::<account>:role/*"

次に、Amazon S3 に保存されているトレーニング済みモデルの場所を指定します。この例では、demo-xgboost-model.tar.gz という名前のトレーニング済み XGBoost モデルを使用します。完全な Amazon S3 URI は文字列変数 model_url に保存されています。


#Create a variable w/ the model S3 URI
s3_bucket = '<your-bucket-name>' # Provide the name of your S3 bucket
bucket_prefix='saved_models'
model_s3_key = f"{bucket_prefix}/demo-xgboost-model.tar.gz"

#Specify S3 bucket w/ model
model_url = f"s3://{s3_bucket}/{model_s3_key}"

プライマリコンテナを指定します。プライマリコンテナについては、推論コードを含む Docker イメージ、アーティファクト (以前のトレーニングから)、予測のためにモデルをデプロイするときに推論コードが使うカスタム環境マップを指定します。

この例では、XGBoost 組み込みアルゴリズムコンテナイメージを指定します。


from sagemaker import image_uris

# Specify an AWS container image. 
container = image_uris.retrieve(region=aws_region, framework='xgboost', version='0.90-1')

を使用して Amazon SageMaker AI でモデルを作成しますCreateModel。次を指定します:

ModelName: モデルの名前 (この例では、model_name という文字列変数として保存されています)。
ExecutionRoleArn: Amazon SageMaker AI が ML コンピューティングインスタンスへのデプロイまたはバッチ変換ジョブのためにモデルアーティファクトと Docker イメージにアクセスするために引き受けることができる IAM ロールの Amazon リソースネーム (ARN)。
PrimaryContainer: 推論コード、関連アーティファクト、予測のためにモデルがデプロイされるときに推論コードが使用するカスタム環境マップを含むプライマリ Docker イメージの場所。


model_name = '<The_name_of_the_model>'

#Create model
create_model_response = sagemaker_client.create_model(
    ModelName = model_name,
    ExecutionRoleArn = sagemaker_role,
    PrimaryContainer = {
        'Image': container,
        'ModelDataUrl': model_url,
    })

API パラメータの完全なリストについては、SageMaker API リファレンスガイドの CreateModel の説明を参照してください。

SageMaker AI が提供するコンテナを使用している場合は、このステップで環境変数を設定することで、モデルサーバーのタイムアウトとペイロードサイズをデフォルト値からフレームワークでサポートされている最大値に増やすことができます。これらの変数を明示的に設定しないと、非同期推論がサポートする最大タイムアウトサイズとペイロードサイズを利用できない場合があります。次の例では、TorchServe をベースにした PyTorch 推論コンテナの環境変数を設定する方法を示しています。


model_name = '<The_name_of_the_model>'

#Create model
create_model_response = sagemaker_client.create_model(
    ModelName = model_name,
    ExecutionRoleArn = sagemaker_role,
    PrimaryContainer = {
        'Image': container,
        'ModelDataUrl': model_url,
        'Environment': {
            'TS_MAX_REQUEST_SIZE': '100000000',
            'TS_MAX_RESPONSE_SIZE': '100000000',
            'TS_DEFAULT_RESPONSE_TIMEOUT': '1000'
        },
    })

エンドポイントの作成が完了したら、inference.py スクリプトから環境変数を出力して、環境変数が正しく設定されているかどうかをテストする必要があります。次の表は、デフォルト値を変更するために設定できる複数のフレームワークの環境変数の一覧です。

フレームワーク	環境変数
PyTorch 1.8 (TorchServe に基づく)	'TS_MAX_REQUEST_SIZE': '100000000' 'TS_MAX_RESPONSE_SIZE': '100000000' 'TS_DEFAULT_RESPONSE_TIMEOUT': '1000'
PyTorch 1.4 (MMS に基づく)	'MMS_MAX_REQUEST_SIZE': '1000000000' 'MMS_MAX_RESPONSE_SIZE': '1000000000' 'MMS_DEFAULT_RESPONSE_TIMEOUT': '900'
HuggingFace 推論コンテナ (MMS に基づく)	'MMS_MAX_REQUEST_SIZE': '2000000000' 'MMS_MAX_RESPONSE_SIZE': '2000000000' 'MMS_DEFAULT_RESPONSE_TIMEOUT': '900'

フレームワーク

環境変数

PyTorch 1.8 (TorchServe に基づく)

'TS_MAX_REQUEST_SIZE': '100000000'

'TS_MAX_RESPONSE_SIZE': '100000000'

'TS_DEFAULT_RESPONSE_TIMEOUT': '1000'

PyTorch 1.4 (MMS に基づく)

'MMS_MAX_REQUEST_SIZE': '1000000000'

'MMS_MAX_RESPONSE_SIZE': '1000000000'

'MMS_DEFAULT_RESPONSE_TIMEOUT': '900'

HuggingFace 推論コンテナ (MMS に基づく)

'MMS_MAX_REQUEST_SIZE': '2000000000'

'MMS_MAX_RESPONSE_SIZE': '2000000000'

'MMS_DEFAULT_RESPONSE_TIMEOUT': '900'

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

作成

エンドポイント設定を作成する