非同步分析的檔案格式

當您使用模型執行非同步分析時，您可以選擇輸入文件的格式： One document per line或 one document per file。您使用的格式取決於您要分析的文件類型，如下表所述。

說明	格式
輸入包含多個檔案。每個檔案都包含一個輸入文件。此格式最適合大型文件的集合，例如報紙文章或科學論文。此外，針對使用原生文件分類器的半結構化文件（影像、PDF 或 Docx 檔案），請使用此格式。	每個檔案一份文件
輸入是一或多個檔案。檔案中的每一行都是單獨的輸入文件。此格式最適合短文件，例如文字訊息或社交媒體文章。	每行一個文件

說明

格式

輸入包含多個檔案。每個檔案都包含一個輸入文件。此格式最適合大型文件的集合，例如報紙文章或科學論文。

此外，針對使用原生文件分類器的半結構化文件（影像、PDF 或 Docx 檔案），請使用此格式。

每個檔案一份文件

輸入是一或多個檔案。檔案中的每一行都是單獨的輸入文件。此格式最適合短文件，例如文字訊息或社交媒體文章。

每行一個文件

每個檔案一份文件

使用 one document per file 格式時，每個檔案代表一個輸入文件。

每行一個文件

使用 One document per line 格式時，每個文件都會放在單獨的一行，不會使用標頭。標籤不會包含在每一行（因為您尚不知道文件的標籤）。檔案的每一行（個別文件的結尾）必須以換行 (LF， \n)、歸位 (CR， \r) 或兩者 (CRLF， \r\n) 結尾。請勿使用 UTF-8 行分隔符號 (u+2028) 來結束行。

下列範例顯示輸入檔案的格式。


Text of document 1 \n
Text of document 2 \n
Text of document 3 \n
Text of document 4 \n

對於這兩種格式，請對文字檔案使用 UTF-8 編碼。準備檔案之後，請將它們放在您用於輸入資料的 S3 儲存貯體中。

當您啟動分類任務時，您可以為輸入資料指定此 Amazon S3 位置。URI 必須與您呼叫的 API 端點位於相同的區域。URI 可以指向單一檔案（如同使用「每行一個文件」方法時，或者可以是資料檔案集合的字首。

例如，如果您使用 URI S3://bucketName/prefix，如果字首是單一檔案，Amazon Comprehend 會使用該檔案做為輸入。如果多個檔案以字首開頭，Amazon Comprehend 會使用所有檔案做為輸入。

授予 Amazon Comprehend 存取包含文件集合和輸出檔案的 S3 儲存貯體。如需詳細資訊，請參閱非同步操作所需的角色型許可。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

執行非同步分析任務

分析任務（主控台）