使用 Amazon 进行机器学习概述 SageMaker

本节介绍典型的机器学习 (ML) 工作流程，并介绍如何使用 Amazon 完成这些任务 SageMaker。

在机器学习中，你教计算机做出预测或推断。首先，您使用一种算法和示例数据来训练模型。然后，您将模型集成到应用程序中，以实时和大规模地生成推论。

下图显示了创建 ML 模型的典型工作流程。它包括循环流程中的三个阶段，我们将在下图中详细介绍这些阶段：

生成示例数据
训练模型
部署模型

该图显示了在大多数典型场景中如何执行以下任务：

生成示例数据-要训练模型，您需要示例数据。您需要的数据类型取决于您希望模型解决的业务问题。这与您希望模型生成的推论有关。例如，如果您想创建一个模型，该模型可以根据手写数字的输入图像预测一个数字。要训练这个模型，你需要手写数字的示例图像。

数据科学家通常会花时间探索和预处理示例数据，然后再将其用于模型训练。要对数据进行预处理，您通常执行以下操作：
1. 获取数据-您可能有内部示例数据存储库，或者可能使用公开可用的数据集。通常，您将一个或多个数据集提取到单个存储库中。
2. 清理数据-要改进模型训练，请根据需要检查数据并对其进行清理。例如，如果您的数据具有值为的country name属性 United StatesUS，则可以编辑数据以保持一致。
3. 准备或转换数据-为了提高性能，您可以执行其他数据转换。例如，您可以选择组合模型的属性，该模型可以预测飞机需要除冰的情况。您可以将这些属性组合成一个新属性以获得更好的模型，而不必单独使用温度和湿度属性。
在中 SageMaker，您可以在集成开发环境SDK中使用 SageMaker Python 对示例数据进行SageMaker APIs预处理 (IDE)。使用 f SDK or Python (Boto3)，您可以获取、浏览和准备数据以进行模型训练。有关数据准备、处理和转换数据的信息，请参阅关于选择正确的数据准备工具的建议 SageMaker 带 SageMaker 处理功能的数据转换工作负载、和通过功能商店创建、存储和共享功能。
训练模型-模型训练包括训练和评估模型，如下所示：
- 训练模型-要训练模型，需要算法或预先训练的基础模型。您选择的算法取决于许多因素。对于内置解决方案，您可以使用 SageMaker 提供的算法之一。有关提供的算法列表 SageMaker 和相关注意事项，请参阅Amazon 中的内置算法和预训练模型 SageMaker。有关提供算法和模型的基于 UI 的训练解决方案，请参阅 SageMaker JumpStart 预训练模型。
  
  您还需要适用于训练的计算资源。您的资源使用取决于训练数据集的大小以及您需要结果的速度。您可以使用各种资源，从单个通用实例到分布式GPU实例集群。有关更多信息，请参阅使用 Amazon 训练模型 SageMaker。
- 评估模型-训练模型后，对其进行评估以确定推断的准确性是否可接受。要训练和评估您的模型，请使用 SageMaker Python SDK 向模型发送请求，以便通过其中一个可用IDEs模型进行推断。有关评估模型的更多信息，请参阅使用 Amazon 模型监视器监控数据和 SageMaker 模型质量。
部署模型 — 传统上，您需要先重新设计模型，然后再将其与应用程序集成并进行部署。借助 SageMaker 托管服务，您可以独立部署模型，从而将其与应用程序代码分离。有关更多信息，请参阅部署模型用于推理。

机器学习是连续的周期。部署模型后，您可以监控推论，收集更多高质量数据，并评估模型以识别偏差。然后，您可以更新训练数据以包含新收集的高质量数据，从而提高推断的准确性。随着更多示例数据可用，您可以继续重新训练模型以提高准确性。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

给首次使用 Amazon 的用户的建议 SageMaker

SageMaker 特点