Amazon Translate의 병렬 데이터 입력 파일 - Amazon Translate

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon Translate의 병렬 데이터 입력 파일

Amazon Translate에서 병렬 데이터 리소스를 생성하려면 먼저 번역 예제가 포함된 입력 파일을 생성해야 합니다. 병렬 데이터 입력 파일은 Amazon Translate에서 지원하는 언어를 사용해야 합니다. 언어 코드의 목록은 지원되는 언어 및 언어 코드 섹션을 참조하세요.

예제 병렬 데이터

다음 표의 텍스트는 병렬 데이터 입력 파일로 형식을 지정할 수 있는 번역 세그먼트의 예제입니다.

en es zh

Amazon Translate is a neural machine translation service.

Amazon Translate es un servicio de traducción automática basado en redes neuronales.

Amazon Translate 是一项神经机器翻译服务。

Neural machine translation is a form of language translation automation that uses deep learning models.

La traducción automática neuronal es una forma de automatizar la traducción de lenguajes utilizando modelos de aprendizaje profundo.

神经机器翻译使用深度学习模型,是一种语言翻译自动化的形式。

Amazon Translate allows you to localize content for international users.

Amazon Translate le permite localizar contenido para usuarios internacionales.

Amazon Translate 允许您为国际用户本地化内容。

표의 첫 번째 행은 언어 코드입니다. 첫 번째 언어인 영어(en)가 소스 언어입니다. 대상 언어는 스페인어(es)와 중국어(zh)입니다. 첫 번째 열은 소스 텍스트의 예제입니다. 다른 열에는 번역 예제가 나와 있습니다. 이 병렬 데이터가 배치 작업을 사용자 지정하면 Amazon Translate는 예제를 반영하도록 번역을 조정합니다.

입력 파일 형식

Amazon Translate는 병렬 데이터 입력 파일에 대해 다음과 같은 형식을 지원합니다.

  • TMX(Translation Memory eXchange)

  • CSV(쉼표로 분리된 값)

  • TSV(탭으로 구분된 값)

TMX

예 TMX 입력 파일

다음 예제 TMX 파일은 Amazon Translate에서 허용하는 형식으로 병렬 데이터를 정의합니다. 이 파일에서는 영어(en)가 소스 언어입니다. 대상 언어는 스페인어(es)와 중국어(zh)입니다. 병렬 데이터의 입력 파일로, Amazon Translate에서 배치 작업의 출력을 조정하는 데 사용할 수 있는 몇 가지 예를 제공합니다.

<?xml version="1.0" encoding="UTF-8"?> <tmx version="1.4"> <header srclang="en"/> <body> <tu> <tuv xml:lang="en"> <seg>Amazon Translate is a neural machine translation service.</seg> </tuv> <tuv xml:lang="es"> <seg>Amazon Translate es un servicio de traducción automática basado en redes neuronales.</seg> </tuv> <tuv xml:lang="zh"> <seg>Amazon Translate 是一项神经机器翻译服务。</seg> </tuv> </tu> <tu> <tuv xml:lang="en"> <seg>Neural machine translation is a form of language translation automation that uses deep learning models.</seg> </tuv> <tuv xml:lang="es"> <seg>La traducción automática neuronal es una forma de automatizar la traducción de lenguajes utilizando modelos de aprendizaje profundo.</seg> </tuv> <tuv xml:lang="zh"> <seg>神经机器翻译使用深度学习模型,是一种语言翻译自动化的形式。</seg> </tuv> </tu> <tu> <tuv xml:lang="en"> <seg>Amazon Translate allows you to localize content for international users.</seg> </tuv> <tuv xml:lang="es"> <seg>Amazon Translate le permite localizar contenido para usuarios internacionales.</seg> </tuv> <tuv xml:lang="zh"> <seg>Amazon Translate 允许您为国际用户本地化内容。</seg> </tuv> </tu> </body> </tmx>
TMX 요구 사항

TMX 파일에 병렬 데이터를 정의할 때는 Amazon Translate의 다음 요구 사항에 유의하세요.

  • Amazon Translate는 TMX 1.4b를 지원합니다. 자세한 내용은 Globalization and Localization Association 웹사이트의 TMX 1.4b specification 섹션을 참조하세요.

  • header 요소에는 srclang 속성이 포함되어야 합니다. 이 속성의 값에 따라 병렬 데이터의 소스 언어가 결정됩니다.

  • body 요소에는 적어도 하나의 번역 단위(tu) 요소가 포함되어야 합니다.

  • tu 요소에는 적어도 하나의 번역 단위 변형(tuv) 요소가 포함되어야 합니다. 이러한 tuv 요소 중 하나에는 header 요소의 srclang 속성에 할당된 것과 동일한 값을 가진 xml:lang 속성이 있어야 합니다.

  • 모든 tuv 요소에는 xml:lang 속성이 있어야 합니다.

  • 모든 tuv 요소에는 세그먼트(seg) 요소가 있어야 합니다.

  • 입력 파일을 처리하는 동안 Amazon Translate는 비어 있거나 공백만 포함된 seg 요소를 발견하면 특정 tu 또는 tuv 요소를 건너뜁니다.

    • seg 요소가 소스 언어에 해당하는 경우 Amazon Translate는 seg 요소가 차지하는 tu 요소를 건너뜁니다.

    • seg 요소가 타겟 언어에 해당하는 경우 Amazon Translate는 seg 요소가 차지하는 tuv 요소만 건너뜁니다.

  • 입력 파일을 처리하는 동안 Amazon Translate는 1,000바이트를 초과하는 seg 요소를 발견하면 특정 tu 또는 tuv 요소를 건너뜁니다.

    • seg 요소가 소스 언어에 해당하는 경우 Amazon Translate는 seg 요소가 차지하는 tu 요소를 건너뜁니다.

    • seg 요소가 타겟 언어에 해당하는 경우 Amazon Translate는 seg 요소가 차지하는 tuv 요소만 건너뜁니다.

  • 입력 파일에 소스 텍스트가 동일한 여러 tu 요소가 포함된 경우 Amazon Translate는 다음 중 하나를 수행합니다.

    • tu 요소에 changedate 속성이 있는 경우 가장 최근 날짜의 요소를 사용합니다.

    • 그렇지 않으면 파일의 끝 부분에 가장 가까운 요소를 사용합니다.

CSV

다음 예제 CSV 파일은 Amazon Translate에서 허용하는 형식으로 병렬 데이터를 정의합니다. 이 파일에서는 영어(en)가 소스 언어입니다. 대상 언어는 스페인어(es)와 중국어(zh)입니다. 병렬 데이터의 입력 파일로, Amazon Translate에서 배치 작업의 출력을 조정하는 데 사용할 수 있는 몇 가지 예를 제공합니다.

예 CSV 입력 파일
en,es,zh Amazon Translate is a neural machine translation service.,Amazon Translate es un servicio de traducción automática basado en redes neuronales.,Amazon Translate 是一项神经机器翻译服务。 Neural machine translation is a form of language translation automation that uses deep learning models.,La traducción automática neuronal es una forma de automatizar la traducción de lenguajes utilizando modelos de aprendizaje profundo.,神经机器翻译使用深度学习模型,是一种语言翻译自动化的形式。 Amazon Translate allows you to localize content for international users.,Amazon Translate le permite localizar contenido para usuarios internacionales.,Amazon Translate 允许您为国际用户本地化内容。
CSV 요구 사항

CSV 파일에 병렬 데이터를 정의할 때는 Amazon Translate의 다음 요구 사항에 유의하세요.

  • 첫 번째 행은 언어 코드로 구성되어 있습니다. 첫 번째 코드는 소스 언어이고 이후의 각 코드는 대상 언어입니다.

  • 첫 번째 열의 각 필드에는 소스 텍스트가 포함됩니다. 다음 열의 각 필드에는 대상 번역이 포함됩니다.

  • 필드의 텍스트에 쉼표가 포함된 경우 텍스트를 큰따옴표(“)로 묶어야 합니다.

  • 텍스트 필드는 여러 줄이 될 수 없습니다.

  • 필드의 값은 +, -, =, @ 문자로 시작할 수 없습니다. 이 요구 사항은 필드를 큰따옴표(“)로 묶었는지 여부에 관계없이 적용됩니다.

  • 필드의 텍스트에 큰따옴표(“)가 포함된 경우 큰따옴표로 이스케이프 처리해야 합니다. 예를 들어 다음과 같은 텍스트가 있습니다.

    34" monitor

    다음과 같이 작성해야 합니다.

    34"" monitor
  • 입력 파일을 처리하는 동안 Amazon Translate는 비어 있거나 공백만 포함된 필드를 발견하면 특정 줄 또는 필드를 건너뜁니다.

    • 소스 텍스트 필드가 비어 있는 경우 Amazon Translate는 해당 필드가 차지하는 줄을 건너뜁니다.

    • 대상 번역 필드가 비어 있는 경우 Amazon Translate는 해당 필드만 건너뜁니다.

  • 입력 파일을 처리하는 동안 Amazon Translate는 1,000바이트를 초과하는 필드를 발견하면 특정 줄 또는 필드를 건너뜁니다.

    • 소스 텍스트 필드가 바이트 한도를 초과하는 경우 Amazon Translate는 해당 필드가 차지하는 줄을 건너뜁니다.

    • 대상 번역 필드가 바이트 한도를 초과하는 경우 Amazon Translate는 해당 필드만 건너뜁니다.

  • 입력 파일에 소스 텍스트가 동일한 여러 레코드가 포함된 경우 Amazon Translate는 파일의 끝 부분에 가장 가까운 레코드를 사용합니다.

TSV

다음 예제 TSV 파일은 Amazon Translate에서 허용하는 형식으로 병렬 데이터를 정의합니다. 이 파일에서는 영어(en)가 소스 언어입니다. 대상 언어는 스페인어(es)와 중국어(zh)입니다. 병렬 데이터의 입력 파일로, Amazon Translate에서 배치 작업의 출력을 조정하는 데 사용할 수 있는 몇 가지 예를 제공합니다.

예 TSV 입력 파일
en es zh Amazon Translate is a neural machine translation service. Amazon Translate es un servicio de traducción automática basado en redes neuronales. Amazon Translate 是一项神经机器翻译服务。 Neural machine translation is a form of language translation automation that uses deep learning models. La traducción automática neuronal es una forma de automatizar la traducción de lenguajes utilizando modelos de aprendizaje profundo. 神经机器翻译使用深度学习模型,是一种语言翻译自动化的形式。 Amazon Translate allows you to localize content for international users. Amazon Translate le permite localizar contenido para usuarios internacionales. Amazon Translate 允许您为国际用户本地化内容。
TSV 요구 사항

TSV 파일에 병렬 데이터를 정의할 때는 Amazon Translate의 다음 요구 사항에 유의하세요.

  • 첫 번째 행은 언어 코드로 구성되어 있습니다. 첫 번째 코드는 소스 언어이고 이후의 각 코드는 대상 언어입니다.

  • 첫 번째 열의 각 필드에는 소스 텍스트가 포함됩니다. 다음 열의 각 필드에는 대상 번역이 포함됩니다.

  • 필드의 텍스트에 탭 문자가 포함된 경우 텍스트를 큰따옴표(“)로 묶어야 합니다.

  • 텍스트 필드는 여러 줄이 될 수 없습니다.

  • 필드의 값은 +, -, =, @ 문자로 시작할 수 없습니다. 이 요구 사항은 필드를 큰따옴표(“)로 묶었는지 여부에 관계없이 적용됩니다.

  • 필드의 텍스트에 큰따옴표(“)가 포함된 경우 큰따옴표로 이스케이프 처리해야 합니다. 예를 들어 다음과 같은 텍스트가 있습니다.

    34" monitor

    다음과 같이 작성해야 합니다.

    34"" monitor
  • 입력 파일을 처리하는 동안 Amazon Translate는 비어 있거나 공백만 포함된 필드를 발견하면 특정 줄 또는 필드를 건너뜁니다.

    • 소스 텍스트 필드가 비어 있는 경우 Amazon Translate는 해당 필드가 차지하는 줄을 건너뜁니다.

    • 대상 번역 필드가 비어 있는 경우 Amazon Translate는 해당 필드만 건너뜁니다.

  • 입력 파일을 처리하는 동안 Amazon Translate는 1,000바이트를 초과하는 필드를 발견하면 특정 줄 또는 필드를 건너뜁니다.

    • 소스 텍스트 필드가 바이트 한도를 초과하는 경우 Amazon Translate는 해당 필드가 차지하는 줄을 건너뜁니다.

    • 대상 번역 필드가 바이트 한도를 초과하는 경우 Amazon Translate는 해당 필드만 건너뜁니다.

  • 입력 파일에 소스 텍스트가 동일한 여러 레코드가 포함된 경우 Amazon Translate는 파일의 끝 부분에 가장 가까운 레코드를 사용합니다.