非同步分析的檔案格式 - Amazon Comprehend

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

非同步分析的檔案格式

當您使用模型執行非同步分析時,您可以選擇輸入文件的格式: One document per lineone document per file。您使用的格式取決於您要分析的文件類型,如下表所述。

描述 格式

輸入包含多個檔案。每個檔案都包含一個輸入文件。此格式最適合收集大型文件,例如報紙文章或科學論文。

此外,針對使用原生文件分類器的半結構化文件 (影像PDF、 或 Docx 檔案),請使用此格式。

每個檔案一個文件

輸入是一或多個檔案。檔案中的每一行都是單獨的輸入文件。此格式最適合短文件,例如文字訊息或社交媒體文章。

每行一個文件

每個檔案一個文件

使用 one document per file 格式時,每個檔案代表一個輸入文件。

每行一個文件

使用 One document per line 格式時,每個文件都會放在單獨的一行,不會使用標頭。標籤不會包含在每一行 (因為您尚不知道文件的標籤)。檔案的每一行 (個別文件的結尾) 必須以換行 (LF, \n)、歸位 (CR, \r) 或兩者 (CRLF, \r\n) 結尾。請勿使用 UTF-8 行分隔符號 (u+2028) 結束行。

下列範例顯示輸入檔案的格式。

Text of document 1 \n Text of document 2 \n Text of document 3 \n Text of document 4 \n

對於這兩種格式,文字檔案請使用 UTF-8 編碼。準備檔案之後,請將它們放在您用於輸入資料的 S3 儲存貯體中。

當您啟動分類任務時,您可以為輸入資料指定此 Amazon S3 位置。URI 必須與您正在呼叫的API端點位於相同的區域。URI 可以指向單一檔案 (如同使用「每行一個文件」方法時,或者可以是資料檔案集合的字首。

例如,如果您使用 URI S3://bucketName/prefix,如果字首是單一檔案,Amazon Comprehend 會使用該檔案做為輸入。如果多個檔案以字首開頭,Amazon Comprehend 會使用所有檔案做為輸入。

授予 Amazon Comprehend 存取包含文件集合和輸出檔案的 S3 儲存貯體。如需詳細資訊,請參閱非同步操作所需的角色型許可