选择您的 Cookie 首选项

我们使用必要 Cookie 和类似工具提供我们的网站和服务。我们使用性能 Cookie 收集匿名统计数据,以便我们可以了解客户如何使用我们的网站并进行改进。必要 Cookie 无法停用,但您可以单击“自定义”或“拒绝”来拒绝性能 Cookie。

如果您同意,AWS 和经批准的第三方还将使用 Cookie 提供有用的网站功能、记住您的首选项并显示相关内容,包括相关广告。要接受或拒绝所有非必要 Cookie,请单击“接受”或“拒绝”。要做出更详细的选择,请单击“自定义”。

表格数据

聚焦模式
表格数据 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

表格数据是指可以加载到二维数据框中的数据。在数据框中,每行代表一条记录,每条记录都有一列或多列。每个数据框单元格内的值可以是数字、分类或文本数据类型。

表格数据集先决条件

在分析之前,您的数据集应该已经应用了任何必要的预处理步骤。这包括数据清理或特征工程。

您可以提供一个或多个数据集。如果您提供多个数据集,请使用以下方法在 Clarify 处理任务中 SageMaker 对其进行识别。

  • 使用ProcessingInput命名配置dataset或分析配置dataset_uri来指定主数据集。有关 dataset_uri 的更多信息,请参阅 分析配置文件 中的参数列表。

  • 使用分析配置文件中提供的 baseline 参数。SHAP 分析需要基准数据集。有关分析配置文件的更多信息(包括示例),请参阅 分析配置文件

下表列出了支持的数据格式、其文件扩展名和 MIME 类型。

Data format(数据格式) 文件扩展名 MIME 类型

CSV

csv

text/csv

JSON 行

jsonl

application/jsonlines

JSON

json

application/json

Parquet

parquet

“application/x-parquet”

以下几节介绍了 CSV、JSON 行和 Apache Parquet 格式的表格数据集示例。

Cl SageMaker arify 处理任务旨在加载 cs v.excel 方言中的 CS V 数据文件。但是它足够灵活,可以支持其他行终止符,包括 \n\r

为了兼容起见,提供给 Clarify 处理任务的 SageMaker 所有 CSV 数据文件都必须采用 UTF-8 编码。

如果您的数据集不包含标题行,请执行以下操作:

  • 将分析配置标签设置为索引 0。这意味着第一列是 Ground Truth 标签。

  • 如果设置了参数 headers,则将 label 设置为标签列标题以指示标签列的位置。所有其他列都指定为特征。

    以下是不包含标题行的数据集示例。

    1,5,2.8,2.538,This is a good product 0,1,0.79,0.475,Bad shopping experience ...

如果您的数据包含标题行,请将参数 label 设置为索引 0。要指示标签列的位置,请使用 Ground Truth 标签标题 Label。所有其他列都指定为特征。

以下是包含标题行的数据集示例。

Label,Rating,A12,A13,Comments 1,5,2.8,2.538,This is a good product 0,1,0.79,0.475,Bad shopping experience ...

Cl SageMaker arify 处理任务旨在加载 cs v.excel 方言中的 CS V 数据文件。但是它足够灵活,可以支持其他行终止符,包括 \n\r

为了兼容起见,提供给 Clarify 处理任务的 SageMaker 所有 CSV 数据文件都必须采用 UTF-8 编码。

如果您的数据集不包含标题行,请执行以下操作:

  • 将分析配置标签设置为索引 0。这意味着第一列是 Ground Truth 标签。

  • 如果设置了参数 headers,则将 label 设置为标签列标题以指示标签列的位置。所有其他列都指定为特征。

    以下是不包含标题行的数据集示例。

    1,5,2.8,2.538,This is a good product 0,1,0.79,0.475,Bad shopping experience ...

如果您的数据包含标题行,请将参数 label 设置为索引 0。要指示标签列的位置,请使用 Ground Truth 标签标题 Label。所有其他列都指定为特征。

以下是包含标题行的数据集示例。

Label,Rating,A12,A13,Comments 1,5,2.8,2.538,This is a good product 0,1,0.79,0.475,Bad shopping experience ...

JSON 是一种灵活的格式,用于表示包含任何复杂程度的结构化数据。Cl SageMaker arify 对 JSON 的支持不限于任何特定格式,因此与 CSV 或 JSON 行格式的数据集相比,允许更灵活的数据格式。本指南介绍如何为 JSON 格式的表格数据设置分析配置。

注意

为确保兼容性,提供给 Clarify 处理任务的 SageMaker 所有 JSON 数据文件都必须采用 UTF-8 编码。

以下是输入数据的示例,其记录包含顶层键、特征列表和标签。

[ {"features":[1,5,2.8,2.538,"This is a good product"],"label":1}, {"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}, ... ]

先前输入示例数据集的示例配置分析应设置以下参数:

  • label参数应使用JMESPath表达式[*].label来提取数据集中每条记录的基本真相标签。该 JMESPath 表达式应生成标签列表,其中第 i 个标签对应于 i 条记录。

  • features参数应使用 JMESPath表达式[*].features为数据集中的每条记录提取特征数组。该 JMESPath 表达式应生成一个二维数组或矩阵,其中 i 行包含与 i 条记录对应的特征值。

    以下是输入数据的示例,其记录包含顶层键和嵌套键,嵌套键包含每条记录的特征和标签列表。

{ "data": [ {"features":[1,5,2.8,2.538,"This is a good product"],"label":1}}, {"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}} ] }

先前输入示例数据集的示例配置分析应设置以下参数:

  • label参数使用JMESPath表达式data[*].label提取数据集中每条记录的真实情况标签。该 JMESPath 表达式应生成标签列表,其中第 i 个标签用于第 i 个记录。

  • features参数使用 JMESPath 表达式data[*].features为数据集中的每条记录提取要素数组。该 JMESPath 表达式应生成一个 2D 数组或矩阵,其中 i 行包含 i 条记录的特征值。

JSON 是一种灵活的格式,用于表示包含任何复杂程度的结构化数据。Cl SageMaker arify 对 JSON 的支持不限于任何特定格式,因此与 CSV 或 JSON 行格式的数据集相比,允许更灵活的数据格式。本指南介绍如何为 JSON 格式的表格数据设置分析配置。

注意

为确保兼容性,提供给 Clarify 处理任务的 SageMaker 所有 JSON 数据文件都必须采用 UTF-8 编码。

以下是输入数据的示例,其记录包含顶层键、特征列表和标签。

[ {"features":[1,5,2.8,2.538,"This is a good product"],"label":1}, {"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}, ... ]

先前输入示例数据集的示例配置分析应设置以下参数:

  • label参数应使用JMESPath表达式[*].label来提取数据集中每条记录的基本真相标签。该 JMESPath 表达式应生成标签列表,其中第 i 个标签对应于 i 条记录。

  • features参数应使用 JMESPath表达式[*].features为数据集中的每条记录提取特征数组。该 JMESPath 表达式应生成一个二维数组或矩阵,其中 i 行包含与 i 条记录对应的特征值。

    以下是输入数据的示例,其记录包含顶层键和嵌套键,嵌套键包含每条记录的特征和标签列表。

{ "data": [ {"features":[1,5,2.8,2.538,"This is a good product"],"label":1}}, {"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}} ] }

先前输入示例数据集的示例配置分析应设置以下参数:

  • label参数使用JMESPath表达式data[*].label提取数据集中每条记录的真实情况标签。该 JMESPath 表达式应生成标签列表,其中第 i 个标签用于第 i 个记录。

  • features参数使用 JMESPath 表达式data[*].features为数据集中的每条记录提取要素数组。该 JMESPath 表达式应生成一个 2D 数组或矩阵,其中 i 行包含 i 条记录的特征值。

JSON 行是一种用于表示结构化数据的文本格式,其中每行都是有效的 JSON 对象。目前 C SageMaker larify 处理作业仅支持 SageMaker AI 密集格式 JSON 行。为符合格式要求,一条记录的所有特征都应列在一个 JSON 数组中。有关 JSON 行的更多信息,请参阅JSONLINES 请求格式

注意

为确保兼容性,提供给 Clarify 处理 SageMaker 任务的所有 JSON Lines 数据文件都必须采用 UTF-8 编码。

以下示例说明如何为包含顶层键和元素列表的记录设置分析配置。

{"features":[1,5,2.8,2.538,"This is a good product"],"label":1} {"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0} ...

先前数据集示例的配置分析应按以下方式设置参数:

  • 要指示真实情况标签的位置,label应将参数设置为 JMESPath 表达式label

  • 要指示要素数组的位置,features应将参数设置为 JMESPath 表达式features

以下示例说明如何为包含顶层键嵌套键(其中包含元素列表)的记录设置分析配置。

{"data":{"features":[1,5,2.8,2.538,"This is a good product"],"label":1}} {"data":{"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}} ...

先前数据集示例的配置分析应按以下方式设置参数:

  • label应将参数设置为 JMESPath表达式data.label以指示真实情况标签的位置。

  • features应将参数设置为 JMESPath表达式data.features以指示要素数组的位置。

JSON 行是一种用于表示结构化数据的文本格式,其中每行都是有效的 JSON 对象。目前 C SageMaker larify 处理作业仅支持 SageMaker AI 密集格式 JSON 行。为符合格式要求,一条记录的所有特征都应列在一个 JSON 数组中。有关 JSON 行的更多信息,请参阅JSONLINES 请求格式

注意

为确保兼容性,提供给 Clarify 处理 SageMaker 任务的所有 JSON Lines 数据文件都必须采用 UTF-8 编码。

以下示例说明如何为包含顶层键和元素列表的记录设置分析配置。

{"features":[1,5,2.8,2.538,"This is a good product"],"label":1} {"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0} ...

先前数据集示例的配置分析应按以下方式设置参数:

  • 要指示真实情况标签的位置,label应将参数设置为 JMESPath 表达式label

  • 要指示要素数组的位置,features应将参数设置为 JMESPath 表达式features

以下示例说明如何为包含顶层键嵌套键(其中包含元素列表)的记录设置分析配置。

{"data":{"features":[1,5,2.8,2.538,"This is a good product"],"label":1}} {"data":{"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}} ...

先前数据集示例的配置分析应按以下方式设置参数:

  • label应将参数设置为 JMESPath表达式data.label以指示真实情况标签的位置。

  • features应将参数设置为 JMESPath表达式data.features以指示要素数组的位置。

Parquet 是一种列式二进制数据格式。目前,Cl SageMaker arify 处理作业仅在处理实例数为时才支持加载 Parquet 数据文件1

由于 SageMaker Clarify 处理作业不支持 Parquet 格式的端点请求或端点响应,因此您必须通过将分析配置参数设置为支持的格式content_type来指定端点请求的数据格式。有关更多信息,请参阅分析配置文件中的content_type

Parquet 数据的列名必须格式化为字符串。使用分析配置 label 参数设置标签列名称以指示 Ground Truth 标签的位置。所有其他列都指定为特征。

Parquet 是一种列式二进制数据格式。目前,Cl SageMaker arify 处理作业仅在处理实例数为时才支持加载 Parquet 数据文件1

由于 SageMaker Clarify 处理作业不支持 Parquet 格式的端点请求或端点响应,因此您必须通过将分析配置参数设置为支持的格式content_type来指定端点请求的数据格式。有关更多信息,请参阅分析配置文件中的content_type

Parquet 数据的列名必须格式化为字符串。使用分析配置 label 参数设置标签列名称以指示 Ground Truth 标签的位置。所有其他列都指定为特征。

本页内容

隐私网站条款Cookie 首选项
© 2025, Amazon Web Services, Inc. 或其附属公司。保留所有权利。