本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
非同步分析的檔案格式
當您使用模型執行非同步分析時,您可以選擇輸入文件的格式: One document per line
或 one document per file
。您使用的格式取決於您要分析的文件類型,如下表所述。
描述 | 格式 |
---|---|
輸入包含多個檔案。每個檔案都包含一個輸入文件。此格式最適合用於收集大型文件,例如報紙文章或科學論文。 此外,針對使用原生文件分類器的半結構化文件 (映像PDF、 或 Docx 檔案),請使用此格式。 |
每個檔案一個文件 |
輸入是一或多個檔案。檔案中的每行都是單獨的輸入文件。此格式最適合短文件,例如簡訊或社交媒體文章。 |
每行一個文件 |
每個檔案一個文件
使用 one document per file
格式時,每個檔案代表一個輸入文件。
每行一個文件
使用 One document per line
格式時,每個文件都放置在單獨的行中,不會使用標頭。標籤不包含在每個行中 (因為您尚不知道文件的標籤)。檔案的每一行 (個別文件的結尾) 必須以換行 (LF, \n)、歸位 (CR, \r) 或兩者 (CRLF, \r\n) 結尾。請勿使用 UTF-8 行分隔符號 (u+2028) 來結束行。
下列範例顯示輸入檔案的格式。
Text of document 1 \n
Text of document 2 \n
Text of document 3 \n
Text of document 4 \n
對於任一格式,文字檔案請使用 UTF-8 編碼。準備檔案後,請將它們放入您用於輸入資料的 S3 儲存貯體中。
啟動分類任務時,您可以為輸入資料指定此 Amazon S3 位置。URI 必須與您正在呼叫的API端點位於相同的 區域中。URI 可以指向單一檔案 (如同使用「每行一個文件」方法時,或者可以是資料檔案集合的字首。
例如,如果您使用 URI S3://bucketName/prefix
,如果字首是單一檔案,Amazon Comprehend 會使用該檔案作為輸入。如果多個檔案以字首開頭,Amazon Comprehend 會使用所有檔案作為輸入。
授予 Amazon Comprehend 存取包含文件集合和輸出檔案的 S3 儲存貯體。如需詳細資訊,請參閱非同步操作所需的角色型許可。