本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
将您的并行数据添加到 Amazon Translate
要向 Amazon Translate 添加并行数据,您需要从 Amazon S3 导入并行数据输入文件。之后,您可以使用并行数据来自定义批量翻译作业生成的输出。
先决条件
在向 Amazon Translate 添加并行数据之前,您必须:
-
有一个并行数据输入文件。要创建该文件,请参阅 Amazon Translate 的并行数据输入文件。
-
在 AWS 账户中有一个 Amazon S3 存储桶。要创建存储桶,请参阅《Amazon Simple Storage Service 用户指南》中的如何创建 S3 存储桶?。
-
将输入文件上传到一个 Amazon S3 存储桶。有关更多信息,请参阅《Amazon Simple Storage Service 用户指南》中的如何将文件和文件夹上传到 S3 存储桶。
添加并行数据(Amazon Translate 控制台)
要使用 Amazon Translate 控制台添加并行数据,请使用并行数据页面:
-
在左侧导航菜单中,选择自定义,然后选择并行数据。
-
在并行数据页面上,选择创建并行数据。控制台显示创建并行数据页面。
-
提供以下项:
- 名称
-
并行数据资源的自定义名称。您必须分配一个在账户和区域中唯一的名称。
- 描述 - 可选
-
自定义描述。
- S3 上的并行数据位置
-
Amazon S3 中并行数据输入文件的位置。要通过导航到 Amazon S3 中的文件来提供位置,请选择选择文件。
- 文件格式
-
并行数据输入文件的格式。支持的格式包括翻译记忆库交换 (TMX)、逗号分隔值 (CSV) 和制表符分隔值 (TSV)。
-
在加密密钥下,选择一个 AWS KMS key来保护您的并行数据。这些 KMS 密钥由 AWS Key Management Service (AWS KMS) 管理。有关 AWS KMS 的更多信息,请参阅《AWS Key Management Service 开发人员指南》。
- 使用 AWS 拥有的密钥
-
使用 Amazon Translate 拥有和管理的 KMS 密钥。这是默认选项,如果您不选择其他方法,则此方法用于加密您的信息。有关更多信息,请参阅《AWS Key Management Service 开发人员指南》中的 AWS 拥有的密钥。
- 使用当前账户中的密钥
-
使用您在 AWS 账户中的 AWS KMS 中管理的 KMS 密钥之一。如果您选择此选项,会有一个菜单提供您的 KMS 密钥列表以供选择。有关更多信息,请参阅《AWS Key Management Service 开发人员指南》中的客户托管密钥。
- 使用不同账户中的密钥
-
使用在其他 AWS 账户中的 AWS KMS 管理的 KMS 密钥。如果选择此选项,控制台中将显示一个字段,供您输入 KMS 密钥的 Amazon 资源名称 (ARN)。
有关加密密钥的更多信息,请参阅《AWS Key Management Service开发人员指南》。
-
选择创建并行数据。
控制台返回并行数据页面,其中的导入状态显示在页面顶部的横幅中。几分钟后,您的并行数据资源将显示在表中。当状态列中的值为活跃时,并行数据即准备好在批量翻译作业中使用。
用于故障排除的错误文件
如果 Amazon Translate 在处理您的输入文件时生成任何错误或警告,控制台会提供一个错误文件,您可以下载该文件来查看错误消息。以下是与该文件内容类似的示例:
{
"summary": {
"record_error_count": 1,
"record_skipped_count": 0
},
"messages": [
{
"content": "Number 1 TU element",
"message": "Invalid TMX format. One tu element should contain exactly one tuv element with the source language code: en"
}
]
}
添加并行数据 (AWS CLI)
要使用 AWS CLI 添加并行数据,请使用 create-parallel-data
命令。
例 create-parallel-data 命令
以下示例通过从 Amazon S3 导入 TSV 文件来创建并行数据对象:
$
aws translate create-parallel-data \>
--namemy-parallel-data
\>
--parallel-data-config S3Uri=s3://input-bucket
/parallel-data-file.tsv
,Format=TSV
如果命令成功,Amazon Translate 将返回新并行数据对象的状态:
{ "Name": "my-parallel-data", "Status": "CREATING" }
您可以使用 get-parallel-data
命令监控并行数据的实时状态。当状态为 ACTIVE
时,并行数据即准备好在批量翻译作业中使用。有关 get-parallel-data
命令的示例,请参阅 查看并行数据对象的详细信息。
使用并行数据
现在,您已创建并行数据资源,可以将其应用于批量翻译作业以自定义输出。要运行批处理作业,请参阅运行批量翻译作业。