Amazon Translate 的并行数据输入文件 - Amazon Translate

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon Translate 的并行数据输入文件

在 Amazon Translate 中创建并行数据资源之前,您必须先创建一个包含翻译示例的输入文件。您的并行数据输入文件必须使用 Amazon Translate 支持的语言。有支持语言的列表,请参阅 支持的语言和语言代码

并行数据示例

下表中的文本展示了可以将格式转换为并行数据输入文件的翻译句段的示例:

en es zh

Amazon Translate is a neural machine translation service.

Amazon Translate es un servicio de traducción automática basado en redes neuronales.

Amazon Translate 是一项神经机器翻译服务。

Neural machine translation is a form of language translation automation that uses deep learning models.

La traducción automática neuronal es una forma de automatizar la traducción de lenguajes utilizando modelos de aprendizaje profundo.

神经机器翻译使用深度学习模型,是一种语言翻译自动化的形式。

Amazon Translate allows you to localize content for international users.

Amazon Translate le permite localizar contenido para usuarios internacionales.

Amazon Translate 允许您为国际用户本地化内容。

表的第一行提供语言代码。第一个语言英语 (en) 是源语言。目标语言为西班牙语 (es) 和中文 (zh)。第一列提供了源文本的示例。其他列包含翻译示例。当使用这些并行数据自定义批处理作业时,Amazon Translate 会调整翻译以反映示例。

输入文件格式

Amazon Translate 支持以下格式的并行数据输入文件:

  • 翻译记忆库交换 (TMX)

  • 逗号分隔值 (CSV)

  • 制表符分隔值 (TSV)

TMX

例 TMX 输入文件

以下示例 TMX 文件以 Amazon Translate 可接受的格式定义并行数据。在此文件中,英语 (en) 是源语言。目标语言为西班牙语 (es) 和中文 (zh)。作为并行数据的输入文件,该文件提供了几个可供 Amazon Translate 用于定制批处理任务输出的示例。

<?xml version="1.0" encoding="UTF-8"?> <tmx version="1.4"> <header srclang="en"/> <body> <tu> <tuv xml:lang="en"> <seg>Amazon Translate is a neural machine translation service.</seg> </tuv> <tuv xml:lang="es"> <seg>Amazon Translate es un servicio de traducción automática basado en redes neuronales.</seg> </tuv> <tuv xml:lang="zh"> <seg>Amazon Translate 是一项神经机器翻译服务。</seg> </tuv> </tu> <tu> <tuv xml:lang="en"> <seg>Neural machine translation is a form of language translation automation that uses deep learning models.</seg> </tuv> <tuv xml:lang="es"> <seg>La traducción automática neuronal es una forma de automatizar la traducción de lenguajes utilizando modelos de aprendizaje profundo.</seg> </tuv> <tuv xml:lang="zh"> <seg>神经机器翻译使用深度学习模型,是一种语言翻译自动化的形式。</seg> </tuv> </tu> <tu> <tuv xml:lang="en"> <seg>Amazon Translate allows you to localize content for international users.</seg> </tuv> <tuv xml:lang="es"> <seg>Amazon Translate le permite localizar contenido para usuarios internacionales.</seg> </tuv> <tuv xml:lang="zh"> <seg>Amazon Translate 允许您为国际用户本地化内容。</seg> </tuv> </tu> </body> </tmx>
TMX 要求

在 TMX 文件中定义并行数据时,请记住 Amazon Translate 的以下要求:

  • Amazon Translate 支持 TMX 1.4b。有关更多信息,请参阅全球化和本地化协会网站上的 TMX 1.4b 规范

  • header 元素必须包含 srclang 属性。此属性的值决定并行数据的源语言。

  • body 元素必须包含至少一个翻译单元 (tu) 元素。

  • 每个 tu 元素必须包含至少两个翻译单元变体 (tuv) 元素。其中一个 tuv 元素的 xml:lang 属性值必须与 header 元素中分配给 srclang 属性的值相同。

  • 所有 tuv 元素都必须具有 xml:lang 属性。

  • 所有 tuv 元素都必须有句段 (seg) 元素。

  • 在处理您的输入文件时,如果遇到空白或仅包含空格的 seg 元素,Amazon Translate 会跳过某些 tutuv 元素:

    • 如果 seg 元素对应于源语言,则 Amazon Translate 会跳过 seg 元素占用的 tu 元素。

    • 如果 seg 元素对应于目标语言,则 Amazon Translate 会跳过 seg 元素占用的 tuv 元素。

  • 在处理您的输入文件时,如果遇到超过 1000 字节的 seg 元素,Amazon Translate 会跳过某些 tutuv 元素:

    • 如果 seg 元素对应于源语言,则 Amazon Translate 会跳过 seg 元素占用的 tu 元素。

    • 如果 seg 元素对应于目标语言,则 Amazon Translate 会跳过 seg 元素占用的 tuv 元素。

  • 如果输入文件包含多个具有相同源文本的 tu 元素,Amazon Translate 会执行以下操作之一:

    • 如果 tu 元素具有 changedate 属性,它会使用具有最新日期的元素。

    • 否则,它会使用最接近文件末尾的元素。

CSV

以下示例 CSV 文件以 Amazon Translate 可接受的格式定义并行数据。在此文件中,英语 (en) 是源语言。目标语言为西班牙语 (es) 和中文 (zh)。作为并行数据的输入文件,该文件提供了几个可供 Amazon Translate 用于定制批处理任务输出的示例。

例 CSV 输入文件
en,es,zh Amazon Translate is a neural machine translation service.,Amazon Translate es un servicio de traducción automática basado en redes neuronales.,Amazon Translate 是一项神经机器翻译服务。 Neural machine translation is a form of language translation automation that uses deep learning models.,La traducción automática neuronal es una forma de automatizar la traducción de lenguajes utilizando modelos de aprendizaje profundo.,神经机器翻译使用深度学习模型,是一种语言翻译自动化的形式。 Amazon Translate allows you to localize content for international users.,Amazon Translate le permite localizar contenido para usuarios internacionales.,Amazon Translate 允许您为国际用户本地化内容。
CSV 要求

在 CSV 文件中定义并行数据时,请记住 Amazon Translate 的以下要求:

  • 第一行包含语言代码。第一个代码是源语言,随后的每个代码都是目标语言。

  • 第一列中的每个字段都包含源文本。后续列中的每个字段都包含目标翻译。

  • 如果任何字段中的文本包含逗号,则该文本必须用双引号 (") 字符括起来。

  • 一个文本字段不能跨越多行。

  • 字段不能以以下字符开头:+、-、=、@。无论该字段是否用双引号 (") 括起来,此要求都适用。

  • 如果字段中的文本包含双引号 ("),则必须使用双引号对其进行转义。例如,以下文本:

    34" monitor

    必须写成:

    34"" monitor
  • 在处理您的输入文件时,如果遇到空白或仅包含空格的字段,Amazon Translate 将跳过某些行或字段:

    • 如果源文本字段为空,Amazon Translate 会跳过该字段所占用的行。

    • 如果目标翻译字段为空,Amazon Translate 将仅跳过该字段。

  • 在处理您的输入文件时,如果遇到超过 1000 字节的字段,Amazon Translate 会跳过某些行或字段:

    • 如果源文本字段超出字节限制,Amazon Translate 会跳过该字段所占用的行。

    • 如果目标翻译字段超出字节限制,Amazon Translate 将仅跳过该字段。

  • 如果输入文件包含多条具有相同源文本的记录,Amazon Translate 将使用最接近文件末尾的记录。

TSV

以下示例 TSV 文件以 Amazon Translate 可接受的格式定义并行数据。在此文件中,英语 (en) 是源语言。目标语言为西班牙语 (es) 和中文 (zh)。作为并行数据的输入文件,该文件提供了几个可供 Amazon Translate 用于定制批处理任务输出的示例。

例 TSV 输入文件
en es zh Amazon Translate is a neural machine translation service. Amazon Translate es un servicio de traducción automática basado en redes neuronales. Amazon Translate 是一项神经机器翻译服务。 Neural machine translation is a form of language translation automation that uses deep learning models. La traducción automática neuronal es una forma de automatizar la traducción de lenguajes utilizando modelos de aprendizaje profundo. 神经机器翻译使用深度学习模型,是一种语言翻译自动化的形式。 Amazon Translate allows you to localize content for international users. Amazon Translate le permite localizar contenido para usuarios internacionales. Amazon Translate 允许您为国际用户本地化内容。
CSV 要求

在 TSV 文件中定义并行数据时,请记住 Amazon Translate 的以下要求:

  • 第一行包含语言代码。第一个代码是源语言,随后的每个代码都是目标语言。

  • 第一列中的每个字段都包含源文本。后续列中的每个字段都包含目标翻译。

  • 如果任何字段中的文本包含制表符,则该文本必须用双引号 (") 字符括起来。

  • 一个文本字段不能跨越多行。

  • 字段不能以以下字符开头:+、-、=、@。无论该字段是否用双引号 (") 括起来,此要求都适用。

  • 如果字段中的文本包含双引号 ("),则必须使用双引号对其进行转义。例如,以下文本:

    34" monitor

    必须写成:

    34"" monitor
  • 在处理您的输入文件时,如果遇到空白或仅包含空格的字段,Amazon Translate 会跳过某些行或字段:

    • 如果源文本字段为空,Amazon Translate 会跳过该字段所占用的行。

    • 如果目标翻译字段为空,Amazon Translate 将仅跳过该字段。

  • 在处理您的输入文件时,如果遇到超过 1000 字节的字段,Amazon Translate 会跳过某些行或字段:

    • 如果源文本字段超出字节限制,Amazon Translate 会跳过该字段所占用的行。

    • 如果目标翻译字段超出字节限制,Amazon Translate 将仅跳过该字段。

  • 如果输入文件包含多条具有相同源文本的记录,Amazon Translate 将使用最接近文件末尾的记录。