非同步分析的檔案格式 - Amazon Comprehend

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

非同步分析的檔案格式

當您使用模型執行非同步分析時,您可以選擇輸入文件的格式: One document per lineone document per file。您使用的格式取決於您要分析的文件類型,如下表所述。

描述 格式

輸入包含多個檔案。每個檔案都包含一個輸入文件。此格式最適合用於收集大型文件,例如報紙文章或科學論文。

此外,針對使用原生文件分類器的半結構化文件 (映像PDF、 或 Docx 檔案),請使用此格式。

每個檔案一個文件

輸入是一或多個檔案。檔案中的每行都是單獨的輸入文件。此格式最適合短文件,例如簡訊或社交媒體文章。

每行一個文件

每個檔案一個文件

使用 one document per file 格式時,每個檔案代表一個輸入文件。

每行一個文件

使用 One document per line 格式時,每個文件都放置在單獨的行中,不會使用標頭。標籤不包含在每個行中 (因為您尚不知道文件的標籤)。檔案的每一行 (個別文件的結尾) 必須以換行 (LF, \n)、歸位 (CR, \r) 或兩者 (CRLF, \r\n) 結尾。請勿使用 UTF-8 行分隔符號 (u+2028) 來結束行。

下列範例顯示輸入檔案的格式。

Text of document 1 \n Text of document 2 \n Text of document 3 \n Text of document 4 \n

對於任一格式,文字檔案請使用 UTF-8 編碼。準備檔案後,請將它們放入您用於輸入資料的 S3 儲存貯體中。

啟動分類任務時,您可以為輸入資料指定此 Amazon S3 位置。URI 必須與您正在呼叫的API端點位於相同的 區域中。URI 可以指向單一檔案 (如同使用「每行一個文件」方法時,或者可以是資料檔案集合的字首。

例如,如果您使用 URI S3://bucketName/prefix,如果字首是單一檔案,Amazon Comprehend 會使用該檔案作為輸入。如果多個檔案以字首開頭,Amazon Comprehend 會使用所有檔案作為輸入。

授予 Amazon Comprehend 存取包含文件集合和輸出檔案的 S3 儲存貯體。如需詳細資訊,請參閱非同步操作所需的角色型許可