我们不再更新 Amazon Machine Learning 服务,也不再接受新用户使用该服务。本文档可供现有用户使用,但我们不会再对其进行更新。有关更多信息,请参阅什么是 Amazon Machine Learning。
本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
了解 Amazon ML 的数据格式
输入数据是您用于创建数据源的数据。您必须使用逗号分隔值 (.csv) 的格式保存输入数据。.csv 文件中的每一行是一个数据记录或观察。.csv 文件中的每一列包含观察的一个属性。例如,下图显示了一个 .csv 文件的内容,其中有四个观察,每个观察位于自己的行中。每个观察包含八个属性,以逗号分隔。这些属性展示了由观察呈现的每个人的以下信息:customerId,jobId,education,housing,loan,campaign,duration,willRespondToCampaign。
属性
Amazon ML 需要每个属性的名称。您可以通过以下方法指定属性名称:
-
在您用作输入数据的 .csv 文件的第一行(也称为标头行)中包括属性名称
-
在与输入数据处于相同 S3 存储桶的单独架构文件中包含属性名称
有关使用架构文件的更多信息,请参阅创建数据架构。
以下 .csv 文件示例在标头行中包括属性的名称。
customerId,jobId,education,housing,loan,campaign,duration,willRespondToCampaign 1,3,basic.4y,no,no,1,261,0 2,1,high.school,no,no,22,149,0 3,1,high.school,yes,no,65,226,1 4,2,basic.6y,no,no,1,151,0
输入文件格式要求
包含输入数据的 .csv 文件必须满足以下要求:
-
必须为使用 ASCII、Unicode 或 EBCDIC 等字符集的纯文本。
-
由观察组成,每行一个观察。
-
对于每个观察,属性值必须以逗号分隔。
-
如果属性值包含逗号(分隔符),整个属性值必须以双引号括起。
-
每个观察必须以行尾字符终止,这是一个特殊字符或字符序列,指示行结尾。
-
属性值不能包含行尾字符,即使属性值以双引号括起。
-
每个观察必须具有相同数量的属性和属性序列。
-
每个观察必须小于等于 100KB。在处理期间,Amazon ML 拒绝任何大于 100KB 的观察。如果 Amazon ML 拒绝的观察超过了 1 万个,它会拒绝整个 .csv 文件。
使用多个文件作为亚马逊机器学习的数据输入
您可以将输入以单个文件或文件集合的形式提供给 Amazon ML 学习。集合必须满足这些条件:
-
所有文件必须具有相同数据架构。
-
所有文件必须驻留在同一 Amazon Simple Storage Service (Amazon S3) 前缀中,并且您为集合提供的路径必须以正斜杠(“/”)字符结尾。
例如,如果您的数据文件名为 input1.csv、input2.csv 和 input3.csv,并且 S3 存储桶名称为 s3://examplebucket,则文件路径类似于下文:
s3://examplebucket/path/to/data/input1.csv
s3://examplebucket/path/to/data/input2.csv
s3://examplebucket/path/to/data/input3.csv
您可以提供以下 S3 位置作为 Amazon ML 的输入:
's3://examplebucket/path/to/data/'
CSV 格式的行尾字符
当您创建 .csv 文件时,每个观察将由特殊的行尾字符终止。此字符不可见,但在您按 Enter 或 Return 键时自动包括在每个观察的结尾。表示行尾的特殊字符取决于您的操作系统。Unix 系统,例如 Linux 或 OS X,使用由“\n”指示的换行符(ASCII 代码十进制 10,十六进制 0x0a)。Microsoft Windows 使用名为回车符和换行符,使用“\r\n”指示(ASCII 代码十进制 13 和 10,十六进制 0x0d 和 0x0a)。
如果您希望使用 OS X 和 Microsoft Excel 创建自己的 .csv 文件,请执行以下步骤。确保选择了正确的格式。
使用 OS X 和 Excel 时保存 .csv 文件
-
保存 .csv 文件时,选择格式,然后选择 Windows Comma Separated (.csv)。
-
选择保存。
重要
请勿使用以逗号分隔值 (.csv) 或 MS-DOS 逗号分隔 (.csv) 格式保存 .csv 文件,因为 Amazon ML 无法读取这些格式。