将您的并行数据添加到 Amazon Translate - Amazon Translate

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

将您的并行数据添加到 Amazon Translate

要向 Amazon Translate 添加并行数据,您需要从 Amazon S3 导入并行数据输入文件。之后,您可以使用并行数据来自定义批量翻译作业生成的输出。

先决条件

在向 Amazon Translate 添加并行数据之前,您必须:

添加并行数据(Amazon Translate 控制台)

要使用 Amazon Translate 控制台添加并行数据,请使用并行数据页面:

  1. 打开 Amazon Translate 控制台

  2. 在左侧导航菜单中,选择自定义,然后选择并行数据

  3. 并行数据页面上,选择创建并行数据。控制台显示创建并行数据页面。

  4. 提供以下项:

    名称

    并行数据资源的自定义名称。您必须分配一个在账户和区域中唯一的名称。

    描述 - 可选

    自定义描述。

    S3 上的并行数据位置

    Amazon S3 中并行数据输入文件的位置。要通过导航到 Amazon S3 中的文件来提供位置,请选择选择文件

    文件格式

    并行数据输入文件的格式。支持的格式包括翻译记忆库交换 (TMX)、逗号分隔值 (CSV) 和制表符分隔值 (TSV)。

  5. 加密密钥下,选择一个 AWS KMS key来保护您的并行数据。这些 KMS 密钥由 AWS Key Management Service (AWS KMS) 管理。有关 AWS KMS 的更多信息,请参阅《AWS Key Management Service 开发人员指南》

    使用 AWS 拥有的密钥

    使用 Amazon Translate 拥有和管理的 KMS 密钥。这是默认选项,如果您不选择其他方法,则此方法用于加密您的信息。有关更多信息,请参阅《AWS Key Management Service 开发人员指南》中的 AWS 拥有的密钥

    使用当前账户中的密钥

    使用您在 AWS 账户中的 AWS KMS 中管理的 KMS 密钥之一。如果您选择此选项,会有一个菜单提供您的 KMS 密钥列表以供选择。有关更多信息,请参阅《AWS Key Management Service 开发人员指南》中的客户托管密钥

    使用不同账户中的密钥

    使用在其他 AWS 账户中的 AWS KMS 管理的 KMS 密钥。如果选择此选项,控制台中将显示一个字段,供您输入 KMS 密钥的 Amazon 资源名称 (ARN)。

    有关加密密钥的更多信息,请参阅《AWS Key Management Service开发人员指南

  6. 选择创建并行数据

    控制台返回并行数据页面,其中的导入状态显示在页面顶部的横幅中。几分钟后,您的并行数据资源将显示在表中。当状态列中的值为活跃时,并行数据即准备好在批量翻译作业中使用。

用于故障排除的错误文件

如果 Amazon Translate 在处理您的输入文件时生成任何错误或警告,控制台会提供一个错误文件,您可以下载该文件来查看错误消息。以下是与该文件内容类似的示例:

{ "summary": { "record_error_count": 1, "record_skipped_count": 0 }, "messages": [ { "content": "Number 1 TU element", "message": "Invalid TMX format. One tu element should contain exactly one tuv element with the source language code: en" } ] }

添加并行数据 (AWS CLI)

要使用 AWS CLI 添加并行数据,请使用 create-parallel-data 命令。

例 create-parallel-data 命令

以下示例通过从 Amazon S3 导入 TSV 文件来创建并行数据对象:

$ aws translate create-parallel-data \ > --name my-parallel-data \ > --parallel-data-config S3Uri=s3://input-bucket/parallel-data-file.tsv,Format=TSV

如果命令成功,Amazon Translate 将返回新并行数据对象的状态:

{ "Name": "my-parallel-data", "Status": "CREATING" }

您可以使用 get-parallel-data 命令监控并行数据的实时状态。当状态为 ACTIVE 时,并行数据即准备好在批量翻译作业中使用。有关 get-parallel-data 命令的示例,请参阅 查看并行数据对象的详细信息

使用并行数据

现在,您已创建并行数据资源,可以将其应用于批量翻译作业以自定义输出。要运行批处理作业,请参阅运行批量翻译作业