Amazon Translate 平行數據輸入文件 - Amazon Translate

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon Translate 平行數據輸入文件

您必須先建立包含翻譯範例的輸入檔案,才能在 Amazon Translate 中建立 parallel 資料資源。您的 parallel 資料輸入檔案必須使用 Amazon Translate 支援的語言。如需這些語言的列表,請參閱支援的語言和語言代碼

範例 parallel 資料

下表中的文字提供可格式化為 parallel 資料輸入檔案的轉譯區段範例:

zh es zh

Amazon Translate 是一種神經機器翻譯服務。

Amazon Translate 是神經元自動翻譯服務。

Amazon Translate 是一项经机器译服 UST。

神經機器翻譯是一種使用深度學習模型的語言翻譯自動化形式。

神經元自動化的自動化形式自動化工程師使用自動化工具的形式。

神经经设设译家用深度习型,是一语言译翻动动成成的。

Amazon Translate 可讓您為國際使用者本地化內容。

Amazon Translate 為國際使用者的最佳本地化。

Amazon Translate 允许您国为客戶本本内容。

表格的第一列提供語言代碼。第一種語言英文 (en) 是來源語言。西班牙文和中文 (zh) 是目標語言。第一欄提供來源文字的範例。其他欄包含翻譯範例。當此 parallel 資料自訂批次任務時,Amazon Translate 會調整翻譯以反映範例。

輸入檔案格式

Amazon Translate 支援 parallel 資料輸入檔案的下列格式:

  • 翻譯記憶庫交換 (TMX)

  • 逗點分隔值 (CSV)

  • 定位點分隔值 (TSV)

TMX

範例 TMX 輸入檔案

下列範例 TMX 檔案會以 Amazon Translate 接受的格式定義 parallel 資料。在這個檔案中,英文 (en) 是來源語言。西班牙文 (es) 及中文 (zh) 是目標語言。作為 parallel 資料的輸入檔案,它提供了幾個範例,Amazon Translate 可用來量身打造批次任務的輸出。

<?xml version="1.0" encoding="UTF-8"?> <tmx version="1.4"> <header srclang="en"/> <body> <tu> <tuv xml:lang="en"> <seg>Amazon Translate is a neural machine translation service.</seg> </tuv> <tuv xml:lang="es"> <seg>Amazon Translate es un servicio de traducción automática basado en redes neuronales.</seg> </tuv> <tuv xml:lang="zh"> <seg>Amazon Translate 是一项神经机器翻译服务。</seg> </tuv> </tu> <tu> <tuv xml:lang="en"> <seg>Neural machine translation is a form of language translation automation that uses deep learning models.</seg> </tuv> <tuv xml:lang="es"> <seg>La traducción automática neuronal es una forma de automatizar la traducción de lenguajes utilizando modelos de aprendizaje profundo.</seg> </tuv> <tuv xml:lang="zh"> <seg>神经机器翻译使用深度学习模型,是一种语言翻译自动化的形式。</seg> </tuv> </tu> <tu> <tuv xml:lang="en"> <seg>Amazon Translate allows you to localize content for international users.</seg> </tuv> <tuv xml:lang="es"> <seg>Amazon Translate le permite localizar contenido para usuarios internacionales.</seg> </tuv> <tuv xml:lang="zh"> <seg>Amazon Translate 允许您为国际用户本地化内容。</seg> </tuv> </tu> </body> </tmx>
TMX 要求

在 TMX 檔案中定義 parallel 資料時,請記住 Amazon Translate 的以下要求:

  • Amazon Translate 支持 TMX 1.4b。如需詳細資訊,請參閱尺寸規格在全球化與本地化協會網站上。

  • 所以此header元素必須包含srclang屬性。此屬性的值決定 parallel 資料的來源語言。

  • 所以此body元素至少必須包含一個 Translate 單元 (tu) 元素。

  • 每個tu元素必須包含至少兩個翻譯單位變體 (tuv) 元素。其中一項tuv元素必須具有xml:lang與指定給的屬性具有相同值的屬性srclang中的屬性header元素。

  • 全部tuv元素必須具有xml:lang屬性。

  • 全部tuv元素必須具有區段 (seg) 元素。

  • 在處理您的輸入文件時,Amazon Translate 會跳過某些tu或者tuv元素, 如果, 它, 遇到seg是空的或只包含空格的元素:

    • 如果seg元素對應於源語言,Amazon Translate 跳過tu該元素seg元素佔據。

    • 如果seg元素對應於一個目標語言,Amazon Translate 只跳過tuv該元素seg元素佔據。

  • 在處理您的輸入文件時,Amazon Translate 會跳過某些tu或者tuv元素, 如果, 它, 遇到seg超過 1000 個字節的元素:

    • 如果seg元素對應於源語言,Amazon Translate 跳過tu該元素seg元素佔據。

    • 如果seg元素對應於一個目標語言,Amazon Translate 只跳過tuv該元素seg元素佔據。

  • 如果輸入文件包含多個tuAmazon Translate 具有相同來源文字的元素會執行下列其中一項操作:

    • 如果tu元素具有changedate屬性,它使用的元素與最新的日期。

    • 否則,它會使用最接近檔案結尾的元素。

CSV

下列範例 CSV 檔案會以 Amazon Translate 接受的格式定義 parallel 資料。在這個檔案中,英文 (en) 是來源語言。西班牙文 (es) 及中文 (zh) 是目標語言。作為 parallel 資料的輸入檔案,它提供了幾個範例,Amazon Translate 可用來量身打造批次任務的輸出。

範例 CSV 輸入檔案
en,es,zh Amazon Translate is a neural machine translation service.,Amazon Translate es un servicio de traducción automática basado en redes neuronales.,Amazon Translate 是一项神经机器翻译服务。 Neural machine translation is a form of language translation automation that uses deep learning models.,La traducción automática neuronal es una forma de automatizar la traducción de lenguajes utilizando modelos de aprendizaje profundo.,神经机器翻译使用深度学习模型,是一种语言翻译自动化的形式。 Amazon Translate allows you to localize content for international users.,Amazon Translate le permite localizar contenido para usuarios internacionales.,Amazon Translate 允许您为国际用户本地化内容。
CSV 要求

在 CSV 檔案中定義 parallel 資料時,請記住 Amazon Translate 的以下要求:

  • 第一行由語言代碼組成。第一個代碼是源語言,後續每個代碼都是一種目標語言。

  • 第一欄中的每個欄位都包含來源文字。後續欄中的每個欄位都包含目標轉譯。

  • 如果任何欄位中的文字包含逗號,則文字必須以雙引號 (「) 字元括住。

  • 文字欄位不能跨越多行。

  • 欄位不能以下列字元為開頭:+,-,=,@。 無論欄位是否以雙引號 (「) 括起來,都適用此要求。

  • 如果欄位中的文字包含雙引號 (「),則必須使用雙引號逸出。例如,文字如:

    34" monitor

    必須寫成:

    34"" monitor
  • 在處理輸入檔案時,如果 Amazon Translate 遇到空白或僅包含空白字元的欄位,則會略過某些行或欄位:

    • 如果來源文字欄位為空白,Amazon Translate 會略過它所佔用的行。

    • 如果目標翻譯欄位為空白,Amazon Translate 譯只會略過該欄位。

  • 在處理輸入檔案時,如果遇到超過 1000 位元組的欄位,Amazon Translate 會略過某些行或欄位:

    • 如果來源文字欄位超過位元組限制,Amazon Translate 會略過它所佔用的行。

    • 如果目標翻譯欄位超過位元組限制,Amazon Translate 譯只會略過該欄位。

  • 如果輸入檔案包含多個具有相同來源文字的記錄,Amazon Translate 會使用最接近檔案結尾的記錄。

TSV

下列範例 TSV 檔案會以 Amazon Translate 接受的格式定義 parallel 資料。在這個檔案中,英文 (en) 是來源語言。西班牙文 (es) 及中文 (zh) 是目標語言。作為 parallel 資料的輸入檔案,它提供了幾個範例,Amazon Translate 可用來量身打造批次任務的輸出。

範例 TSV 輸入檔案
en es zh Amazon Translate is a neural machine translation service. Amazon Translate es un servicio de traducción automática basado en redes neuronales. Amazon Translate 是一项神经机器翻译服务。 Neural machine translation is a form of language translation automation that uses deep learning models. La traducción automática neuronal es una forma de automatizar la traducción de lenguajes utilizando modelos de aprendizaje profundo. 神经机器翻译使用深度学习模型,是一种语言翻译自动化的形式。 Amazon Translate allows you to localize content for international users. Amazon Translate le permite localizar contenido para usuarios internacionales. Amazon Translate 允许您为国际用户本地化内容。
TSV 要求

在 TSV 檔案中定義 parallel 資料時,請記住 Amazon Translate 的以下要求:

  • 第一行由語言代碼組成。第一個代碼是源語言,後續每個代碼都是一種目標語言。

  • 第一欄中的每個欄位都包含來源文字。後續欄中的每個欄位都包含目標轉譯。

  • 如果任何欄位中的文字包含定位字元,則文字必須以雙引號 (「) 字元括起來。

  • 文字欄位不能跨越多行。

  • 欄位不能以下列字元為開頭:+,-,=,@。 無論欄位是否以雙引號 (「) 括起來,都適用此要求。

  • 如果欄位中的文字包含雙引號 (「),則必須使用雙引號逸出。例如,文字如:

    34" monitor

    必須寫成:

    34"" monitor
  • 在處理輸入檔案時,如果遇到空白或僅包含空白字元的欄位,Amazon Translate 會略過某些行或欄位:

    • 如果來源文字欄位為空白,Amazon Translate 會略過它所佔用的行。

    • 如果目標翻譯欄位為空白,Amazon Translate 譯只會略過該欄位。

  • 在處理輸入檔案時,如果遇到超過 1000 位元組的欄位,Amazon Translate 會略過某些行或欄位:

    • 如果來源文字欄位超過位元組限制,Amazon Translate 會略過它所佔用的行。

    • 如果目標翻譯欄位超過位元組限制,Amazon Translate 譯只會略過該欄位。

  • 如果輸入檔案包含多個具有相同來源文字的記錄,Amazon Translate 會使用最接近檔案結尾的記錄。