机器学习 API - AWS Glue

机器学习 API

机器学习 API 描述了机器学习数据类型,并包括用于创建、删除或更新转换或启动机器学习任务运行的 API。

数据类型

TransformParameters 结构

与机器学习转换关联的特定于算法的参数。

字段
  • TransformType必填:UTF-8 字符串(有效值:FIND_MATCHES)。

    机器学习转换的类型

    有关机器学习转换的类型的信息,请参阅 创建 Machine Learning 转换

  • FindMatchesParameters – 一个 FindMatchesParameters 对象。

    查找匹配算法的参数。

EvaluationMetrics 结构

评估指标提供机器学习转换的质量估计值。

字段
  • TransformType必填:UTF-8 字符串(有效值:FIND_MATCHES)。

    机器学习转换的类型

  • FindMatchesMetrics – 一个 FindMatchesMetrics 对象。

    查找匹配算法的评估指标。

MLTransform 结构

机器学习转换的结构。

字段
  • TransformId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    为机器学习转换生成的唯一转换 ID。ID 保证唯一性,不会改变。

  • Name – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    机器学习转换的用户定义的名称。名称不保证唯一性,可随时更改。

  • Description – 描述字符串,长度不超过 2048 个字节,与 URI address multi-line string pattern 匹配。

    机器学习转换的用户定义的长格式描述文本。描述不保证唯一性,可随时更改。

  • Status – UTF-8 字符串(有效值:NOT_READY | READY | DELETING)。

    机器学习转换的当前状态。

  • CreatedOn – 时间戳。

    时间戳。此机器学习转换的创建时间和日期。

  • LastModifiedOn – 时间戳。

    时间戳。此机器学习转换的最后一个修改时间点。

  • InputRecordTablesGlueTable 对象的数组,不超过 10 个结构。

    转换使用的 AWS Glue 表定义的列表。

  • Parameters – 一个 TransformParameters 对象。

    一个 TransformParameters 对象。您可以使用参数来优化(自定义)机器学习转换的行为,方法是指定它从哪些数据中学习,以及您对各种权衡的偏好(例如精确率与召回率,或准确度与成本)。

  • EvaluationMetrics – 一个 EvaluationMetrics 对象。

    一个 EvaluationMetrics 对象。评估指标提供机器学习转换的质量估计值。

  • LabelCount – 数字(整数)。

    对于此转换由 AWS Glue 生成的标签文件的计数标识符。要创建更好的转换,您可以迭代方式下载、标注和上载标签文件。

  • SchemaSchemaColumn 对象的数组,不超过 100 个结构。

    键值对的映射表示该转换可针对的列和数据类型。具有 100 列的上限。

  • Role – UTF-8 字符串。

    具有所需权限的 IAM 角色的名称或 Amazon Resource Name(ARN)。所需权限包括 AWS Glue 资源的 AWS Glue 服务角色权限和转换所需的 Amazon S3 权限。

    • 此角色需要 AWS Glue 服务角色权限才能允许访问 AWS Glue 中的资源。请参阅将策略附加到访问 AWS Glue 的 IAM 用户

    • 此角色需要对您的 Amazon Simple Storage Service (Amazon S3) 源、目标、临时目录、脚本以及此转换的任务运行所使用的任何库的权限。

  • GlueVersion – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Custom string pattern #47 匹配。

    此值确定与此机器学习转换兼容的 AWS Glue 版本。建议大多数用户使用 Glue 1.0。如果未设置此值,则 Glue 兼容性默认为 Glue 0.9。有关更多信息,请参阅开发人员指南中的 AWS Glue 版本

  • MaxCapacity – 数字(double)。

    分配给此转换的任务运行的 AWS Glue 数据处理单元(DPU)的数量。您可以分配 2 到 100 个 DPU;默认值为 10。DPU 是对处理能力的相对度量,它由 4 个 vCPU 的计算容量和 16GB 内存组成。有关更多信息,请参阅 AWS Glue 价格页面

    MaxCapacity 是具有 NumberOfWorkersWorkerType 的互斥选项。

    • 如果已设置 NumberOfWorkersWorkerType,则不能设置 MaxCapacity

    • 如果已设置 MaxCapacity,则不能设置 NumberOfWorkersWorkerType

    • 如果已设置 WorkerType,则 NumberOfWorkers 为必填项(反之亦然)。

    • MaxCapacityNumberOfWorkers 都必须至少为 1。

    在将 WorkerType 字段设置为 Standard 之外的值时,MaxCapacity 字段将自动设置并变为只读。

  • WorkerType – UTF-8 字符串(有效值:Standard="" | G.1X="" | G.2X="" | G.025X="" | G.4X="" | G.8X="" | Z.2X="")。

    在此转换的任务运行时分配的预定义工作线程的类型。接受的值为 Standard、G.1X 或 G.2X。

    • 对于 Standard 工作线程类型,每个工作线程提供 4 个 vCPU、16 GB 内存和 50GB 磁盘,并且每个工作线程提供 2 个执行器。

    • 对于 G.1X 工作线程类型,每个工作线程提供 4 个 vCPU、16 GB 内存和 64GB 磁盘,并且每个工作线程提供 1 个执行器。

    • 对于 G.2X 工作线程类型,每个工作线程提供 84 个 vCPU、32 GB 内存和 128GB 磁盘,并且每个工作线程提供 1 个执行器。

    MaxCapacity 是具有 NumberOfWorkersWorkerType 的互斥选项。

    • 如果已设置 NumberOfWorkersWorkerType,则不能设置 MaxCapacity

    • 如果已设置 MaxCapacity,则不能设置 NumberOfWorkersWorkerType

    • 如果已设置 WorkerType,则 NumberOfWorkers 为必填项(反之亦然)。

    • MaxCapacityNumberOfWorkers 都必须至少为 1。

  • NumberOfWorkers – 数字(整数)。

    在转换的任务运行时分配的已定义 workerType 的工作线程数。

    如果已设置 WorkerType,则 NumberOfWorkers 为必填项(反之亦然)。

  • Timeout - 数字(整数),至少为 1。

    机器学习转换的超时(以分钟为单位)。

  • MaxRetries – 数字(整数)。

    在机器学习转换的 MLTaskRun 失败后重试的最大次数。

  • TransformEncryption – 一个 TransformEncryption 对象。

    应用于访问用户数据的转换的静态加密设置。机器学习转换可以访问在 Amazon S3 中使用 KMS 加密的用户数据。

FindMatchesParameters 结构

用于配置查找匹配项转换的参数。

字段
  • PrimaryKeyColumnName – UTF-8 字符串,不少于 1 个字节或超过 1024 个字节,与 Single-line string pattern 匹配。

    唯一标识源表中的行的列名称。用于帮助标识匹配的记录。

  • PrecisionRecallTradeoff – 数字(双数),不超过 1.0。

    调整转换以在查准率与查全率之间取得平衡时选择的值。值 0.5 表示没有首选项;值 1.0 表示纯粹因精确率而产生的偏差,值 0.0 表示因召回率而产生的偏差。因为这是一种权衡,所以选择接近 1.0 的值表示非常低的召回率,选择接近 0.0 的值会导致非常低的精确率。

    精确率指标指示模型在预测匹配时正确的频率。

    查全率指标表示,对于实际匹配,您的模型预测匹配的频率。

  • AccuracyCostTradeoff – 数字(双数),不超过 1.0。

    调整转换以在准确性与成本之间取得平衡时选择的值。值 0.5 表示系统平衡准确度和成本问题。值为 1.0 表示纯粹因准确度而产生的偏差,这通常会导致成本更高,有时会高得多。值为 0.0 表示纯粹因成本而产生的偏差,这会导致 FindMatches 转换,有时具有不可接受的准确度。

    准确性衡量转换发现真阳性和真阴性的程度。提高准确性需要更多的机器资源和成本。但这也会导致查全率提高。

    成本衡量运行转换所消耗的计算资源(从而产生成本)的数量。

  • EnforceProvidedLabels – 布尔值。

    要启用或禁用的值,以强制输出与用户提供的标签相匹配。如果该值为 Truefind matches 转换会强制输出来匹配提供的标注。结果将覆盖正常合并结果。如果值为 False,则 find matches 转换不能确保遵循提供的所有标签,并且结果依赖于训练后的模型。

    请注意,将此值设置为 true 可能会增加合并执行时间。

FindMatchesMetrics 结构

查找匹配算法的评估指标。通过转换预测一些匹配项并将结果与同一数据集中的已知匹配项进行比较来衡量机器学习转换的质量。质量指标基于数据的子集,因此它们并不精确。

字段
  • AreaUnderPRCurve – 数字(双数),不超过 1.0。

    精确率与召回率曲线(AUPRC)下的区域是衡量转换整体质量的单一数字,这与精确率与召回率的选择无关。较高的值表明您具有更有吸引力的精确率与召回率权衡。

    有关更多信息,请参阅 Wikipedia 中的查准率和查全率

  • Precision – 数字(双数),不超过 1.0。

    精确率指标指示转换在预测匹配时正确的频率。具体而言,精确率指标衡量转换从总真阳性可能中找到真阳性的程度。

    有关更多信息,请参阅 Wikipedia 中的查准率和查全率

  • Recall – 数字(双数),不超过 1.0。

    召回率指标表示,对于实际匹配,转换预测匹配的频率。具体而言,召回率指标衡量转换从源数据中的总记录中找到真阳性的程度。

    有关更多信息,请参阅 Wikipedia 中的查准率和查全率

  • F1 – 数字(双数),不超过 1.0。

    最大 F1 指标表示转换的准确度介于 0 和 1 之间,其中 1 是最大准确度。

    有关更多信息,请参阅 Wikipedia 中的 F1 分数

  • ConfusionMatrix – 一个 ConfusionMatrix 对象。

    混淆矩阵显示转换正在准确预测的内容以及它正在产生的错误类型。

    有关更多信息,请参阅 Wikipedia 中的混淆矩阵

  • ColumnImportancesColumnImportance 对象的数组,不超过 100 个结构。

    ColumnImportance 结构列表,其中包含列重要性指标,按重要性降序排序。

ConfusionMatrix 结构

混淆矩阵显示转换正在准确预测的内容以及它正在产生的错误类型。

有关更多信息,请参阅 Wikipedia 中的混淆矩阵

字段
  • NumTruePositives – 数字(长型)。

    在转换的混淆矩阵中,转换正确找到的数据中的匹配项数量。

  • NumFalsePositives – 数字(长型)。

    在转换的混淆矩阵中,转换错误地将数据分类为匹配项的的非匹配项数量。

  • NumTrueNegatives – 数字(长型)。

    在转换的混淆矩阵中,转换正确拒绝的数据中的非匹配项数量。

  • NumFalseNegatives – 数字(长型)。

    在转换的混淆矩阵中,转换未找到的数据中的匹配项数量。

GlueTable 结构

用于输入或输出数据的 AWS Glue Data Catalog 中的数据库和表。

字段
  • DatabaseName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    AWS Glue Data Catalog 中的数据库名称。

  • TableName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    AWS Glue Data Catalog 中的表名称。

  • CatalogId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    AWS Glue Data Catalog 的唯一标识符。

  • ConnectionName – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    AWS Glue Data Catalog 中的连接名称。

  • AdditionalOptions – 键值对的映射数组,不少于 1 对且不超过 10 对。

    每个键是一个 UTF-8 字符串,不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    每个值都是一个描述字符串,长度不超过 2048 个字节,与 URI address multi-line string pattern 匹配。

    用于表的其他选项。目前支持两个键:

    • pushDownPredicate:筛选分区,而不必列出并读取数据集中的所有文件。

    • catalogPartitionPredicate:使用 AWS Glue Data Catalog 中的分区索引来使用服务器端分区修剪。

TaskRun 结构

与机器学习转换关联的采样参数。

字段
  • TransformId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    转换的唯一标识符。

  • TaskRunId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    任务运行的唯一标识符。

  • Status – UTF-8 字符串(有效值:RUNNING | FINISHED | FAILED | PENDING_EXECUTION | TIMED_OUT | CANCELING | CANCELED | RECEIVED_BY_TASKRUNNER)。

    请求任务的当前状态。

  • LogGroupName – UTF-8 字符串。

    用于进行安全日志记录的日志组的名称,与此任务运行关联。

  • Properties – 一个 TaskRunProperties 对象。

    指定与此任务运行关联的配置属性。

  • ErrorString – UTF-8 字符串。

    与此任务运行关联的错误字符串列表。

  • StartedOn – 时间戳。

    此任务运行开始的日期和时间。

  • LastModifiedOn – 时间戳。

    请求任务运行的最后一个时间点已更新。

  • CompletedOn – 时间戳。

    请求任务运行的最后一个时间点已完成。

  • ExecutionTime – 数字(整数)。

    任务运行使用资源的时间长度(以秒为单位)。

TransformFilterCriteria 结构

筛选机器学习转换的条件。

字段
  • Name – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    筛选机器学习转换的唯一转换名称。

  • TransformType – UTF-8 字符串(有效值:FIND_MATCHES)。

    筛选机器学习转换的机器学习转换类型。

  • Status – UTF-8 字符串(有效值:NOT_READY | READY | DELETING)。

    按转换的最后一个已知状态筛选机器学习转换列表(以指示是否可以使用转换)。“NOT_READY”、“READY”或“DELETING”之一。

  • GlueVersion – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Custom string pattern #47 匹配。

    此值确定与此机器学习转换兼容的 AWS Glue 版本。建议大多数用户使用 Glue 1.0。如果未设置此值,则 Glue 兼容性默认为 Glue 0.9。有关更多信息,请参阅开发人员指南中的 AWS Glue 版本

  • CreatedBefore – 时间戳。

    转换创建前的时间和日期。

  • CreatedAfter – 时间戳。

    转换创建后的时间和日期。

  • LastModifiedBefore – 时间戳。

    筛选此日期之前最后一次修改的转换。

  • LastModifiedAfter – 时间戳。

    筛选此日期之后最后一次修改的转换。

  • SchemaSchemaColumn 对象的数组,不超过 100 个结构。

    筛选具有特定架构的数据集。Map<Column, Type> 对象是一个键值对数组,表示该转换接受的架构,其中 Column 是列的名称,Type 是数据的类型,如整数或字符串。具有 100 列的上限。

TransformSortCriteria 结构

与机器学习转换关联的排序标准。

字段
  • Column必填:UTF-8 字符串(有效值:NAME | TRANSFORM_TYPE | STATUS | CREATED | LAST_MODIFIED)。

    在与机器学习转换关联的排序标准中所使用的列。

  • SortDirection必填:UTF-8 字符串(有效值:DESCENDING | ASCENDING)。

    在与机器学习转换关联的排序标准中所使用的排序方向。

TaskRunFilterCriteria 结构

筛选用于机器学习转换的任务运行的条件。

字段
  • TaskRunType – UTF-8 字符串(有效值:EVALUATION | LABELING_SET_GENERATION | IMPORT_LABELS | EXPORT_LABELS | FIND_MATCHES)。

    任务运行的类型。

  • Status – UTF-8 字符串(有效值:RUNNING | FINISHED | FAILED | PENDING_EXECUTION | TIMED_OUT | CANCELING | CANCELED | RECEIVED_BY_TASKRUNNER)。

    任务运行的当前状态。

  • StartedBefore – 时间戳。

    筛选在此日期之前启动的任务运行。

  • StartedAfter – 时间戳。

    筛选在此日期之后启动的任务运行。

TaskRunSortCriteria 结构

对用于机器学习转换的任务运行的列表进行排序的排序条件。

字段
  • Column必填: UTF-8 字符串(有效值:TASK_RUN_TYPE | STATUS | STARTED)。

    对用于机器学习转换的任务运行的列表进行排序的列。

  • SortDirection必填:UTF-8 字符串(有效值:DESCENDING | ASCENDING)。

    对用于机器学习转换的任务运行的列表进行排序的排序方向。

TaskRunProperties 结构

任务运行的配置属性。

字段
  • TaskType – UTF-8 字符串(有效值:EVALUATION | LABELING_SET_GENERATION | IMPORT_LABELS | EXPORT_LABELS | FIND_MATCHES)。

    任务运行的类型。

  • ImportLabelsTaskRunProperties – 一个 ImportLabelsTaskRunProperties 对象。

    导入标签任务运行的配置属性。

  • ExportLabelsTaskRunProperties – 一个 ExportLabelsTaskRunProperties 对象。

    导出标签任务运行的配置属性。

  • LabelingSetGenerationTaskRunProperties – 一个 LabelingSetGenerationTaskRunProperties 对象。

    标签集生成任务运行的配置属性。

  • FindMatchesTaskRunProperties – 一个 FindMatchesTaskRunProperties 对象。

    查找匹配项任务运行的配置属性。

FindMatchesTaskRunProperties 结构

指定“查找匹配项”任务运行的配置属性。

字段
  • JobId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    “查找匹配项”任务运行的任务 ID。

  • JobName – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    用于“查找匹配项”任务运行所分配给任务的名称。

  • JobRunId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    “查找匹配项”任务运行的任务运行 ID。

ImportLabelsTaskRunProperties 结构

指定导入标签任务运行的配置属性。

字段
  • InputS3Path – UTF-8 字符串。

    您将从中导入标签的 Amazon Simple Storage Service(Amazon S3)路径。

  • Replace – 布尔值。

    指示是否覆盖现有标签。

ExportLabelsTaskRunProperties 结构

指定导出标签任务运行的配置属性。

字段
  • OutputS3Path – UTF-8 字符串。

    您将导出标签的 Amazon Simple Storage Service(Amazon S3)路径。

LabelingSetGenerationTaskRunProperties 结构

指定标签集生成任务运行的配置属性。

字段
  • OutputS3Path – UTF-8 字符串。

    您将生成标签集的 Amazon Simple Storage Service(Amazon S3)路径。

SchemaColumn 结构

键值对表示该转换可针对的列和数据类型。MLTransformSchema 参数可能包含多达 100 个这些结构。

字段

TransformEncryption 结构

应用于访问用户数据的转换的静态加密设置。机器学习转换可以访问在 Amazon S3 中使用 KMS 加密的用户数据。

此外,导入的标签和经过训练的转换现在可以使用客户提供的 KMS 密钥进行加密。

字段
  • MlUserDataEncryption – 一个 MLUserDataEncryption 对象。

    包含加密模式和客户提供的 KMS 密钥 ID 的 MLUserDataEncryption 对象。

  • TaskRunSecurityConfigurationName – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    安全配置的名称。

MLUserDataEncryption 结构

应用于访问用户数据的转换的静态加密设置。

字段
  • MlUserDataEncryptionMode必填:UTF-8 字符串(有效值:DISABLED | SSE-KMS="SSEKMS")。

    应用于用户数据的加密模式。有效值为:

    • DISABLED:加密已禁用

    • SSEKMS:将服务器端使用 AWS Key Management Service(SSE-KMS)进行的加密用于存储在 Amazon S3 中的用户数据。

  • KmsKeyId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    客户提供的 KMS 密钥的 ID。

ColumnImportance 结构

包含列名称和列重要性分数的结构。

列重要性可识别您的记录中的哪些列比其他列更重要,帮助您了解列如何对模型产生影响。

字段
  • ColumnName – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    列的名称。

  • Importance – 数字(双数),不超过 1.0。

    列的列重要性分数(以小数形式)。

操作

CreateMLTransform 操作(Python:create_ml_transform)

创建 AWS Glue 机器学习转换。此操作将创建转换以及训练它所有所需的参数。

调用此操作作为使用机器学习转换过程中的第一步(例如 FindMatches 转换)来消除重复数据。您可以提供一个可选的 Description,以及要用于算法的参数。

您还必须为 AWS Glue 代表您运行的任务指定特定参数,作为从数据中学习和创建高质量机器学习转换的一部分。这些参数包括 Role,并且可以选择 AllocatedCapacityTimeoutMaxRetries。有关更多信息,请参阅任务

请求
  • Name必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    在创建转换时为其提供的唯一名称。

  • Description – 描述字符串,长度不超过 2048 个字节,与 URI address multi-line string pattern 匹配。

    正在定义的机器学习转换的描述。默认值是空字符串。

  • InputRecordTables必填GlueTable 对象的数组,不超过 10 个结构。

    转换使用的 AWS Glue 表定义的列表。

  • Parameters必填:一个 TransformParameters 对象。

    特定于所使用转换类型的算法参数。有条件地依赖于转换类型。

  • Role必填:UTF-8 字符串。

    具有所需权限的 IAM 角色的名称或 Amazon Resource Name(ARN)。所需权限包括 AWS Glue 资源的 AWS Glue 服务角色权限和转换所需的 Amazon S3 权限。

    • 此角色需要 AWS Glue 服务角色权限才能允许访问 AWS Glue 中的资源。请参阅将策略附加到访问 AWS Glue 的 IAM 用户

    • 此角色需要对您的 Amazon Simple Storage Service (Amazon S3) 源、目标、临时目录、脚本以及此转换的任务运行所使用的任何库的权限。

  • GlueVersion – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Custom string pattern #47 匹配。

    此值确定与此机器学习转换兼容的 AWS Glue 版本。建议大多数用户使用 Glue 1.0。如果未设置此值,则 Glue 兼容性默认为 Glue 0.9。有关更多信息,请参阅开发人员指南中的 AWS Glue 版本

  • MaxCapacity – 数字(double)。

    分配给此转换的任务运行的 AWS Glue 数据处理单元(DPU)的数量。您可以分配 2 到 100 个 DPU;默认值为 10。DPU 是对处理能力的相对度量,它由 4 个 vCPU 的计算容量和 16GB 内存组成。有关更多信息,请参阅 AWS Glue 价格页面

    MaxCapacity 是具有 NumberOfWorkersWorkerType 的互斥选项。

    • 如果已设置 NumberOfWorkersWorkerType,则不能设置 MaxCapacity

    • 如果已设置 MaxCapacity,则不能设置 NumberOfWorkersWorkerType

    • 如果已设置 WorkerType,则 NumberOfWorkers 为必填项(反之亦然)。

    • MaxCapacityNumberOfWorkers 都必须至少为 1。

    在将 WorkerType 字段设置为 Standard 之外的值时,MaxCapacity 字段将自动设置并变为只读。

    在将 WorkerType 字段设置为 Standard 之外的值时,MaxCapacity 字段将自动设置并变为只读。

  • WorkerType – UTF-8 字符串(有效值:Standard="" | G.1X="" | G.2X="" | G.025X="" | G.4X="" | G.8X="" | Z.2X="")。

    在此任务运行时分配的预定义工作线程的类型。接受的值为 Standard、G.1X 或 G.2X。

    • 对于 Standard 工作线程类型,每个工作线程提供 4 个 vCPU、16 GB 内存和 50GB 磁盘,并且每个工作线程提供 2 个执行器。

    • 对于 G.1X 工作线程类型,每个工作线程提供 4 个 vCPU、16 GB 内存和 64GB 磁盘,并且每个工作线程提供 1 个执行器。

    • 对于 G.2X 工作线程类型,每个工作线程提供 84 个 vCPU、32 GB 内存和 128GB 磁盘,并且每个工作线程提供 1 个执行器。

    MaxCapacity 是具有 NumberOfWorkersWorkerType 的互斥选项。

    • 如果已设置 NumberOfWorkersWorkerType,则不能设置 MaxCapacity

    • 如果已设置 MaxCapacity,则不能设置 NumberOfWorkersWorkerType

    • 如果已设置 WorkerType,则 NumberOfWorkers 为必填项(反之亦然)。

    • MaxCapacityNumberOfWorkers 都必须至少为 1。

  • NumberOfWorkers – 数字(整数)。

    任务运行时分配的已定义 workerType 的工作线程数。

    如果已设置 WorkerType,则 NumberOfWorkers 为必填项(反之亦然)。

  • Timeout - 数字(整数),至少为 1。

    此转换的任务运行超时时间(以分钟为单位)。这是此转换的任务运行在终止并进入 TIMEOUT 状态前可以使用资源的最长时间。默认值为 2880 分钟(48 小时)。

  • MaxRetries – 数字(整数)。

    在任务运行失败后重试此转换的任务的最大次数。

  • Tags – 键值对的映射数组,不超过 50 对。

    每个键都是一个 UTF-8 字符串,长度不少于 1 个字节或超过 128 个字节。

    每个值是一个 UTF-8 字符串,不超过 256 个字节。

    用于此机器学习转换的标签。您可以使用标签来限制对机器学习转换的访问权限。有关 AWS Glue 中的标签的更多信息,请参阅开发人员指南中的 AWS Glue 中的 AWS 标签

  • TransformEncryption – 一个 TransformEncryption 对象。

    应用于访问用户数据的转换的静态加密设置。机器学习转换可以访问在 Amazon S3 中使用 KMS 加密的用户数据。

响应
  • TransformId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    为转换生成的唯一标识符。

错误
  • AlreadyExistsException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

  • AccessDeniedException

  • ResourceNumberLimitExceededException

  • IdempotentParameterMismatchException

UpdateMLTransform 操作(Python:update_ml_transform)

更新现有的机器学习转换。调用此操作可优化算法参数来获得更好的结果。

调用此操作后,您可以调用 StartMLEvaluationTaskRun 操作来评估新参数实现目标的程度(例如提高机器学习转换的质量,或使其更具成本效益)。

请求
  • TransformId必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    在创建转换时为其生成的唯一标识符。

  • Name – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    在创建转换时为其提供的唯一名称。

  • Description – 描述字符串,长度不超过 2048 个字节,与 URI address multi-line string pattern 匹配。

    对转换的说明。默认值是空字符串。

  • Parameters – 一个 TransformParameters 对象。

    特定于所使用转换类型(算法)的配置参数。有条件地依赖于转换类型。

  • Role – UTF-8 字符串。

    具有所需权限的 IAM 角色的名称或 Amazon Resource Name(ARN)。

  • GlueVersion – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Custom string pattern #47 匹配。

    此值确定与此机器学习转换兼容的 AWS Glue 版本。建议大多数用户使用 Glue 1.0。如果未设置此值,则 Glue 兼容性默认为 Glue 0.9。有关更多信息,请参阅开发人员指南中的 AWS Glue 版本

  • MaxCapacity – 数字(double)。

    分配给此转换的任务运行的 AWS Glue 数据处理单元(DPU)的数量。您可以分配 2 到 100 个 DPU;默认值为 10。DPU 是对处理能力的相对度量,它由 4 个 vCPU 的计算容量和 16GB 内存组成。有关更多信息,请参阅 AWS Glue 价格页面

    在将 WorkerType 字段设置为 Standard 之外的值时,MaxCapacity 字段将自动设置并变为只读。

  • WorkerType – UTF-8 字符串(有效值:Standard="" | G.1X="" | G.2X="" | G.025X="" | G.4X="" | G.8X="" | Z.2X="")。

    在此任务运行时分配的预定义工作线程的类型。接受的值为 Standard、G.1X 或 G.2X。

    • 对于 Standard 工作线程类型,每个工作线程提供 4 个 vCPU、16 GB 内存和 50GB 磁盘,并且每个工作线程提供 2 个执行器。

    • 对于 G.1X 工作线程类型,每个工作线程提供 4 个 vCPU、16 GB 内存和 64GB 磁盘,并且每个工作线程提供 1 个执行器。

    • 对于 G.2X 工作线程类型,每个工作线程提供 84 个 vCPU、32 GB 内存和 128GB 磁盘,并且每个工作线程提供 1 个执行器。

  • NumberOfWorkers – 数字(整数)。

    任务运行时分配的已定义 workerType 的工作线程数。

  • Timeout - 数字(整数),至少为 1。

    转换的任务运行超时时间(以分钟为单位)。这是此转换的任务运行在终止并进入 TIMEOUT 状态前可以使用资源的最长时间。默认值为 2880 分钟(48 小时)。

  • MaxRetries – 数字(整数)。

    在任务运行失败后重试此转换的任务的最大次数。

响应
  • TransformId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    已更新的转换的唯一标识符。

错误
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

  • AccessDeniedException

DeleteMLTransform 操作(Python:delete_ml_transform)

删除 AWS Glue 机器学习转换。机器学习转换是一种特殊类型的转换,它通过从人类提供的示例中学习,使用机器学习来了解要执行转换的详细信息。然后,这些转换将通过 AWS Glue 保存。如果您不再需要转换,可以通过调用 DeleteMLTransforms 来删除它。但是,仍然引用已删除转换的任何 AWS Glue 任务将不再成功运行。

请求
  • TransformId必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    要删除转换的唯一标识符。

响应
  • TransformId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    已删除转换的唯一标识符。

错误
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

GetMLTransform 操作(Python:get_ml_transform)

获取 AWS Glue 机器学习转换构件及其所有相应的元数据。机器学习转换是一种特殊类型的转换,它通过从人类提供的示例中学习,使用机器学习来了解要执行转换的详细信息。然后,这些转换将通过 AWS Glue 保存。您可以通过调用 GetMLTransform 来检索其元数据。

请求
  • TransformId必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    转换的唯一标识符,在创建转换时生成。

响应
  • TransformId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    转换的唯一标识符,在创建转换时生成。

  • Name – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    在创建转换时为其提供的唯一名称。

  • Description – 描述字符串,长度不超过 2048 个字节,与 URI address multi-line string pattern 匹配。

    对转换的说明。

  • Status – UTF-8 字符串(有效值:NOT_READY | READY | DELETING)。

    转换的最后一个已知状态(指示是否可以使用)。“NOT_READY”、“READY”或“DELETING”之一。

  • CreatedOn – 时间戳。

    转换的创建日期和时间。

  • LastModifiedOn – 时间戳。

    转换的上次修改日期和时间。

  • InputRecordTablesGlueTable 对象的数组,不超过 10 个结构。

    转换使用的 AWS Glue 表定义的列表。

  • Parameters – 一个 TransformParameters 对象。

    特定于所使用算法的配置参数。

  • EvaluationMetrics – 一个 EvaluationMetrics 对象。

    最新的评估指标。

  • LabelCount – 数字(整数)。

    可用于此转换的标签数量。

  • SchemaSchemaColumn 对象的数组,不超过 100 个结构。

    Map<Column, Type> 对象,该对象表示此转换接受的架构。具有 100 列的上限。

  • Role – UTF-8 字符串。

    具有所需权限的 IAM 角色的名称或 Amazon Resource Name(ARN)。

  • GlueVersion – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Custom string pattern #47 匹配。

    此值确定与此机器学习转换兼容的 AWS Glue 版本。建议大多数用户使用 Glue 1.0。如果未设置此值,则 Glue 兼容性默认为 Glue 0.9。有关更多信息,请参阅开发人员指南中的 AWS Glue 版本

  • MaxCapacity – 数字(double)。

    分配给此转换的任务运行的 AWS Glue 数据处理单元(DPU)的数量。您可以分配 2 到 100 个 DPU;默认值为 10。DPU 是对处理能力的相对度量,它由 4 个 vCPU 的计算容量和 16GB 内存组成。有关更多信息,请参阅 AWS Glue 价格页面

    在将 WorkerType 字段设置为 Standard 之外的值时,MaxCapacity 字段将自动设置并变为只读。

  • WorkerType – UTF-8 字符串(有效值:Standard="" | G.1X="" | G.2X="" | G.025X="" | G.4X="" | G.8X="" | Z.2X="")。

    在此任务运行时分配的预定义工作线程的类型。接受的值为 Standard、G.1X 或 G.2X。

    • 对于 Standard 工作线程类型,每个工作线程提供 4 个 vCPU、16 GB 内存和 50GB 磁盘,并且每个工作线程提供 2 个执行器。

    • 对于 G.1X 工作线程类型,每个工作线程提供 4 个 vCPU、16 GB 内存和 64GB 磁盘,并且每个工作线程提供 1 个执行器。

    • 对于 G.2X 工作线程类型,每个工作线程提供 84 个 vCPU、32 GB 内存和 128GB 磁盘,并且每个工作线程提供 1 个执行器。

  • NumberOfWorkers – 数字(整数)。

    任务运行时分配的已定义 workerType 的工作线程数。

  • Timeout - 数字(整数),至少为 1。

    转换的任务运行超时时间(以分钟为单位)。这是此转换的任务运行在终止并进入 TIMEOUT 状态前可以使用资源的最长时间。默认值为 2880 分钟(48 小时)。

  • MaxRetries – 数字(整数)。

    在任务运行失败后重试此转换的任务的最大次数。

  • TransformEncryption – 一个 TransformEncryption 对象。

    应用于访问用户数据的转换的静态加密设置。机器学习转换可以访问在 Amazon S3 中使用 KMS 加密的用户数据。

错误
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

GetMLTransforms 操作(Python:get_ml_ransforms)

获取一个可排序、可筛选的现有 AWS Glue 机器学习转换列表。机器学习转换是一种特殊类型的转换,它通过从人类提供的示例中学习,使用机器学习来了解要执行转换的详细信息。然后,这些转换将通过 AWS Glue 保存,您还可以通过调用 GetMLTransforms 来检索其元数据。

请求
  • NextToken – UTF-8 字符串。

    用于偏移结果的分页令牌。

  • MaxResults – 数字(整数),不小于 1 或大于 1000。

    要返回的最大结果数量。

  • Filter – 一个 TransformFilterCriteria 对象。

    转换筛选条件。

  • Sort – 一个 TransformSortCriteria 对象。

    排序标准。

响应
  • Transforms必填:MLTransform 对象的数组。

    机器学习转换的列表。

  • NextToken – UTF-8 字符串。

    分页令牌(如果有更多结果可用)。

错误
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

ListMLTransforms 操作(Python:list_ml_transforms)

在此 AWS 账户中检索可排序、可筛选的现有 AWS Glue 机器学习转换列表或带指定标签的资源。此操作采用可选的 Tags 字段,您可以将其用作响应的筛选条件,以便将标记的资源作为一个组进行检索。如果您选择使用标签筛选,则仅检索带标签的资源。

请求
  • NextToken – UTF-8 字符串。

    延续令牌 (如果这是延续请求)。

  • MaxResults – 数字(整数),不小于 1 或大于 1000。

    要返回的列表的最大大小。

  • Filter – 一个 TransformFilterCriteria 对象。

    用于机器学习转换筛选的 TransformFilterCriteria

  • Sort – 一个 TransformSortCriteria 对象。

    用于机器学习转换排序的 TransformSortCriteria

  • Tags – 键值对的映射数组,不超过 50 对。

    每个键都是一个 UTF-8 字符串,长度不少于 1 个字节或超过 128 个字节。

    每个值是一个 UTF-8 字符串,不超过 256 个字节。

    指定仅返回这些已标记的资源。

响应
  • TransformIds必填:UTF-8 字符串数组。

    所有机器学习的标识符都在账户中进行转换,或者机器学习将使用指定的标签进行转换。

  • NextToken – UTF-8 字符串。

    延续令牌 (如果返回的列表不包含上一个可用的指标)。

错误
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

StartMLEvaluationTaskRun 操作(Python:start_ml_evaluation_task_run)

开始一项任务来估计转换的质量。

当您提供标签集作为真实示例时,AWS Glue 机器学习使用其中的一些例子来学习。其余的标签用作测试,以估计质量。

返回运行的唯一标识符。您可以调用 GetMLTaskRun 来获取更多有关 EvaluationTaskRun 的统计信息。

请求
  • TransformId必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    机器学习转换的唯一标识符。

响应
  • TaskRunId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    与此运行关联的唯一标识符。

错误
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

  • ConcurrentRunsExceededException

  • MLTransformNotReadyException

StartMLLabelingSetGenerationTaskRun 操作(Python:start_ml_labeling_set_generation_task_run)

启动机器学习转换的主动学习工作流,通过生成标签集和添加标签来提高转换的质量。

StartMLLabelingSetGenerationTaskRun 完成后,AWS Glue 将产生一个“标签集”或一组供人类回答的问题。

如果是 FindMatches 转换,这些问题的形式是“将这些行组合到完全由匹配记录组成的组中的正确方法是什么?”

标记过程完成后,您可以通过调用 StartImportLabelsTaskRun 来上载您的标签。StartImportLabelsTaskRun 完成后,机器学习转换的所有未来运行都将使用新的和改进的标签,并执行更高质量的转换。

请求
  • TransformId必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    机器学习转换的唯一标识符。

  • OutputS3Path必填:UTF-8 字符串。

    生成标签集的 Amazon Simple Storage Service(Amazon S3)路径。

响应
  • TaskRunId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    与此任务运行关联的唯一运行标识符。

错误
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

  • ConcurrentRunsExceededException

GetMLTaskRun 操作(Python:get_ml_task_run)

获取在机器学习转换上特定任务运行的详细信息。机器学习任务运行是 AWS Glue 作为各种机器学习工作流的一部分代表您运行的异步任务。您可以通过调用使用 TaskRunID 及其父级转换的 TransformIDGetMLTaskRun 来检查任何任务运行的统计信息。

请求
  • TransformId必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    机器学习转换的唯一标识符。

  • TaskRunId必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    任务运行的唯一标识符。

响应
  • TransformId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    任务运行的唯一标识符。

  • TaskRunId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    与此运行关联的唯一运行标识符。

  • Status – UTF-8 字符串(有效值:RUNNING | FINISHED | FAILED | PENDING_EXECUTION | TIMED_OUT | CANCELING | CANCELED | RECEIVED_BY_TASKRUNNER)。

    此任务运行的运行状态。

  • LogGroupName – UTF-8 字符串。

    与任务运行关联的日志组的名称。

  • Properties – 一个 TaskRunProperties 对象。

    与任务运行关联的属性列表。

  • ErrorString – UTF-8 字符串。

    与任务运行关联的错误字符串。

  • StartedOn – 时间戳。

    此任务运行开始的日期和时间。

  • LastModifiedOn – 时间戳。

    此任务运行的上次修改日期和时间。

  • CompletedOn – 时间戳。

    此任务运行的完成日期和时间。

  • ExecutionTime – 数字(整数)。

    任务运行使用资源的时间长度(以秒为单位)。

错误
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

GetMLTaskRuns 操作(Python:get_ml_task_runs)

获取机器学习转换的运行列表。机器学习任务运行是 AWS Glue 作为各种机器学习工作流的一部分代表您运行的异步任务。您可以通过调用使用与其父级转换的 TransformIDGetMLTaskRuns 和本节中介绍的其他可选参数来获取可排序、可筛选的机器学习任务运行列表。

此操作返回历史运行列表,必须进行分页。

请求
  • TransformId必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    机器学习转换的唯一标识符。

  • NextToken – UTF-8 字符串。

    用于分页结果的令牌。默认值为空。

  • MaxResults – 数字(整数),不小于 1 或大于 1000。

    要返回的最大结果数量。

  • Filter – 一个 TaskRunFilterCriteria 对象。

    筛选标准,位于 TaskRunFilterCriteria 结构,用于任务运行。

  • Sort – 一个 TaskRunSortCriteria 对象。

    排序标准,位于 TaskRunSortCriteria 结构,用于任务运行。

响应
  • TaskRunsTaskRun 对象的数组。

    与转换相关联的任务运行列表。

  • NextToken – UTF-8 字符串。

    分页令牌(如果有更多结果可用)。

错误
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

CancelMLTaskRun 操作(Python:cancel_ml_task_run)

取消(停止)任务运行。机器学习任务运行是 AWS Glue 作为各种机器学习工作流的一部分代表您运行的异步任务。您可以随时取消机器学习任务运行,方法是调用使用任务运行父级转换的 TransformID 和任务运行的 TaskRunIdCancelMLTaskRun

请求
  • TransformId必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    机器学习转换的唯一标识符。

  • TaskRunId必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    任务运行的唯一标识符。

响应
  • TransformId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    机器学习转换的唯一标识符。

  • TaskRunId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    任务运行的唯一标识符。

  • Status – UTF-8 字符串(有效值:RUNNING | FINISHED | FAILED | PENDING_EXECUTION | TIMED_OUT | CANCELING | CANCELED | RECEIVED_BY_TASKRUNNER)。

    此运行的运行状态。

错误
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

StartExportLabelsTaskRun 操作(Python:start_export_labels_task_run)

开始异步任务以导出特定转换的所有标记数据。此任务是唯一不属于典型主动学习工作流的标签相关的 API 调用。当您希望同时处理所有现有标签时,例如,当您想要删除或更改以前作为真实提交的标签时,您通常使用 StartExportLabelsTaskRun。此 API 操作接受要导出其标签的 TransformId,以及将标签导出的 Amazon Simple Storage Service(Amazon S3)路径。操作返回 TaskRunId。您可以通过调用 GetMLTaskRun API 来检查任务运行状态。

请求
  • TransformId必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    机器学习转换的唯一标识符。

  • OutputS3Path必填:UTF-8 字符串。

    您导出标签的 Amazon S3 路径。

响应
  • TaskRunId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    任务运行的唯一标识符。

错误
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

StartImportLabelsTaskRun 操作(Python:start_import_labels_task_run)

使您能够提供其他标签(真相示例),用于教授机器学习转换并提高其质量。此 API 操作通常用作主动学习工作流的一部分,其中该工作流于 StartMLLabelingSetGenerationTaskRun 调用,并最终提高您的机器学习转换的质量。

StartMLLabelingSetGenerationTaskRun 完成后,AWS Glue 机器学习将产生一系列供人类回答的问题。(回答这些问题通常称为机器学习工作流中的“标签”)。如果是 FindMatches 转换,这些问题的形式是“将这些行组合到完全由匹配记录组成的组中的正确方法是什么?” 标签过程完成后,用户会通过调用 StartImportLabelsTaskRun 来上载他们的答案/标签。StartImportLabelsTaskRun 完成后,机器学习转换的所有未来运行都使用新的和改进的标签,并执行更高质量的转换。

默认情况下,StartMLLabelingSetGenerationTaskRun 会不断地从您上载的所有标签中学习和合并所有标签,除非您将 Replace 设置为 True。如果您将 Replace 设置为 true,StartImportLabelsTaskRun 会删除和忘记所有先前上载的标签,并仅从您上载的确切标签集中获取信息。如果您意识到以前上载了不正确的标签,并且您认为它们对转换质量产生负面影响,则替换标签会很有帮助。

您可以通过调用 GetMLTaskRun 操作来检查任务运行状态。

请求
  • TransformId必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    机器学习转换的唯一标识符。

  • InputS3Path必填:UTF-8 字符串。

    导入标签的 Amazon Simple Storage Service(Amazon S3)路径。

  • ReplaceAllLabels – 布尔值。

    指示是否覆盖现有标签。

响应
  • TaskRunId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    任务运行的唯一标识符。

错误
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • ResourceNumberLimitExceededException

  • InternalServiceException