本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
部署模型用于推理
借助 SageMaker Amazon AI,您可以开始从经过训练的机器学习模型中获得预测或推论。 SageMaker AI 提供了多种机器学习基础架构和模型部署选项,以帮助满足您的所有机器学习推理需求。借助 SageMaker AI Inference,您可以扩展模型部署,在生产环境中更有效地管理模型,并减轻运营负担。 SageMaker AI 为您提供各种推理选项,例如用于获取低延迟推理的实时终端节点、用于完全托管基础设施和自动缩放的无服务器端点,以及用于批量请求的异步端点。通过利用适合您使用情况的推理选项,您可以确保高效的模型部署和推理。
选择功能
使用 SageMaker AI 部署机器学习模型有多种用例。本节介绍这些用例,以及我们为每个用例推荐的 SageMaker AI 功能。
使用案例
以下是使用 SageMaker AI 部署机器学习模型的主要用例。
-
使用场景 1:在低代码或无代码环境中部署机器学习模型。对于初学者或 SageMaker 人工智能新手,您可以 SageMaker JumpStart 通过 Amazon SageMaker Studio 界面使用 Amazon 部署经过预训练的模型,而无需进行复杂的配置。
-
使用场景 2:使用代码部署机器学习模型,更具灵活性和可控性。经验丰富的机器学习从业者可以使用 SageMaker AI Python 中的
ModelBuilder
类部署自己的模型,其中包含针对其应用程序需求的自定义设置SDK,该类可以对各种设置(例如实例类型、网络隔离和资源分配)进行精细控制。 -
使用场景 3:大规模部署机器学习模型。对于想要在生产中大规模管理模型的高级用户和组织,请使用 AWS SDK for Python (Boto3) 和 AWS CloudFormation 以及所需的基础设施即代码 (IaC) 和 CI/CD 工具来配置资源并实现资源管理自动化。
推荐的功能
下表描述了与每个用例对应的 SageMaker AI 功能的关键注意事项和权衡取舍。
应用场景 1 | 应用场景 2 | 使用案例 3 | |
---|---|---|---|
SageMaker 人工智能功能 | JumpStart 在 Studio 中使用可加快基础模型的部署。 | 使用来ModelBuilder 自 SageMaker Python 的模型进行部署SDK。 | 使用@@ 大规模部署和管理模型 AWS CloudFormation。 |
描述 | 使用 Studio 用户界面从目录中将预训练模型部署到预先配置的推理端点。该选项非常适合公民数据科学家,或者任何想要部署模型而无需配置复杂设置的人员。 | 使用 Amazon A SageMaker I Python 中的ModelBuilder 类SDK来部署您自己的模型并配置部署设置。该选项非常适合经验丰富的数据科学家,或者任何需要部署自己的模型并需要精细控制的人员。 |
使用 AWS CloudFormation 和基础设施即代码 (IaC) 进行编程控制和自动化,用于部署和管理 SageMaker AI 模型。该选项非常适合需要一致和可重复部署的高级用户。 |
优化 | 快速、精简地部署流行的开源模型 | 部署自己的模型 | 对生产中的模型进行持续管理 |
注意事项 | 缺乏针对容器设置和特定应用需求的定制功能 | 无用户界面,要求您能够自如地开发和维护 Python 代码 | 需要基础架构管理和组织资源,还需要熟悉 AWS SDK for Python (Boto3) 或熟悉 AWS CloudFormation 模板。 |
建议的环境 | SageMaker 人工智能领域 | 使用你的 AWS 凭据配置的 Python 开发环境并SDK安装了 SageMaker Python,或者一个 SageMaker 人工智能,IDE比如 SageMaker JupyterLab | AWS CLI、本地开发环境、基础设施即代码 (IaC) 和 CI/CD 工具 |
其他选项
SageMaker AI 为您的推理用例提供了不同的选项,让您可以选择部署的技术广度和深度:
-
将模型部署到端点。部署模型时,请考虑以下选项:
实时推理。实时推理非常适合有交互式、低延迟要求的推理工作负载。
使用 Amazon SageMaker 无服务器推理部署模型。使用无服务器推理部署模型,无需配置或管理任何底层基础设施。该选项非常适合在流量高峰之间有空闲期的工作负载,并且可以承受冷启动。
异步推理。队列对传入的请求进行排队并异步处理。此选项非常适合负载大小大(最大 1GB)、处理时间长( toAsynchronous 推理上升一小时)且延迟要求接近实时的请求
-
成本优化。要优化推理成本,请考虑以下选项:
-
使用 SageMaker Neo 优化模型性能。 使用 SageMaker Neo 以更好的性能和效率优化和运行您的机器学习模型,通过自动优化模型使其在 AWS Inferentia 芯片等环境中运行,帮助您最大限度地降低计算成本。
-
自动缩放 Amazon SageMaker 人工智能模型。使用自动缩放功能,可根据传入流量规律动态调整端点的计算资源,只需为特定时间内使用的资源付费,从而帮助您优化成本。
-