了解 Amazon ML 的数据格式 - Amazon Machine Learning

我们不再更新 Amazon Machine Learning 服务,也不再接受新用户使用该服务。本文档可供现有用户使用,但我们不会再对其进行更新。有关更多信息,请参阅什么是 Amazon Machine Learning

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

了解 Amazon ML 的数据格式

输入数据是您用于创建数据源的数据。您必须使用逗号分隔值 (.csv) 的格式保存输入数据。.csv 文件中的每一行是一个数据记录或观察。.csv 文件中的每一列包含观察的一个属性。例如,下图显示了一个 .csv 文件的内容,其中有四个观察,每个观察位于自己的行中。每个观察包含八个属性,以逗号分隔。这些属性展示了由观察呈现的每个人的以下信息:customerId,jobId,education,housing,loan,campaign,duration,willRespondToCampaign。

Diagram showing Attributes and Observations sections with sample data entries.

属性

Amazon ML 需要每个属性的名称。您可以通过以下方法指定属性名称:

  • 在您用作输入数据的 .csv 文件的第一行(也称为标头行)中包括属性名称

  • 在与输入数据处于相同 S3 存储桶的单独架构文件中包含属性名称

有关使用架构文件的更多信息,请参阅创建数据架构

以下 .csv 文件示例在标头行中包括属性的名称。

customerId,jobId,education,housing,loan,campaign,duration,willRespondToCampaign 1,3,basic.4y,no,no,1,261,0 2,1,high.school,no,no,22,149,0 3,1,high.school,yes,no,65,226,1 4,2,basic.6y,no,no,1,151,0

输入文件格式要求

包含输入数据的 .csv 文件必须满足以下要求:

  • 必须为使用 ASCII、Unicode 或 EBCDIC 等字符集的纯文本。

  • 由观察组成,每行一个观察。

  • 对于每个观察,属性值必须以逗号分隔。

  • 如果属性值包含逗号(分隔符),整个属性值必须以双引号括起。

  • 每个观察必须以行尾字符终止,这是一个特殊字符或字符序列,指示行结尾。

  • 属性值不能包含行尾字符,即使属性值以双引号括起。

  • 每个观察必须具有相同数量的属性和属性序列。

  • 每个观察必须小于等于 100KB。在处理期间,Amazon ML 拒绝任何大于 100KB 的观察。如果 Amazon ML 拒绝的观察超过了 1 万个,它会拒绝整个 .csv 文件。

使用多个文件作为亚马逊机器学习的数据输入

您可以将输入以单个文件或文件集合的形式提供给 Amazon ML 学习。集合必须满足这些条件:

  • 所有文件必须具有相同数据架构。

  • 所有文件必须驻留在同一 Amazon Simple Storage Service (Amazon S3) 前缀中,并且您为集合提供的路径必须以正斜杠(“/”)字符结尾。

例如,如果您的数据文件名为 input1.csv、input2.csv 和 input3.csv,并且 S3 存储桶名称为 s3://examplebucket,则文件路径类似于下文:

s3://examplebucket/path/to/data/input1.csv

s3://examplebucket/path/to/data/input2.csv

s3://examplebucket/path/to/data/input3.csv

您可以提供以下 S3 位置作为 Amazon ML 的输入:

's3://examplebucket/path/to/data/'

CSV 格式的行尾字符

当您创建 .csv 文件时,每个观察将由特殊的行尾字符终止。此字符不可见,但在您按 EnterReturn 键时自动包括在每个观察的结尾。表示行尾的特殊字符取决于您的操作系统。Unix 系统,例如 Linux 或 OS X,使用由“\n”指示的换行符(ASCII 代码十进制 10,十六进制 0x0a)。Microsoft Windows 使用名为回车符换行符,使用“\r\n”指示(ASCII 代码十进制 13 和 10,十六进制 0x0d 和 0x0a)。

如果您希望使用 OS X 和 Microsoft Excel 创建自己的 .csv 文件,请执行以下步骤。确保选择了正确的格式。

使用 OS X 和 Excel 时保存 .csv 文件

  1. 保存 .csv 文件时,选择格式,然后选择 Windows Comma Separated (.csv)

  2. 选择保存

    Excel file save dialog showing various file format options, including CSV and specialty formats.

    重要

    请勿使用以逗号分隔值 (.csv)MS-DOS 逗号分隔 (.csv) 格式保存 .csv 文件,因为 Amazon ML 无法读取这些格式。