本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
非同步自訂分析的輸入
您可以將多個文件輸入至自訂的非同步分析工作。下列主題說明您可以使用的輸入文件類型。最大檔案大小會根據輸入文件的類型而有所不同。
純文字文件
將所有純文本輸入文檔提供為 UTF-8 格式的文本。下表列出檔案大小上限及其他準則。
注意
當所有輸入文件都是純文本時,這些限制適用。
描述 | 名額 / 指引 |
---|---|
每個檔案格式一個文件的最大檔案大小 (自訂分類) | 1 個字節-10 MB |
文件大小 (自訂實體辨識) | 1 個字節-1 MB |
檔案數目上限,每個檔案一個文件 | 1,000,000 |
最大行數,每行一個文檔(適用於請求中的所有文件) | 1,000,000 |
文件語料庫大小 (所有文件皆以純文字組合) | 1 個字節 —5 GB |
半結構化文件
半結構化文件包括原生 PDF 文件和 Word 文件。
下表列出檔案大小上限及其他準則。
描述 | 名額 / 指引 |
---|---|
文件大小 | 1 個字節-50 MB |
文件大小 (DOCX) | 1 個字節 —5 MB |
檔案數目上限 | 500 |
PDF 文件或 DOCX 文件的最大頁數 | 100 |
文本提取後的文檔語料庫大小(純文本,所有文件合併) | 1 個字節 —5 GB |
根據預設,自訂分析會使用 Amazon Comprehend 剖析器從 Word 檔案和數位 PDF 檔案擷取文字。對於 PDF 檔案,您可以覆寫此預設值,並使用 Amazon Textract 擷取文字。請參閱 設定文字擷取選項。
影像檔案和掃描的 PDF 檔案
自訂分析支援 JPEG、PNG 和 TIFF 影像。
下表列出影像的最大檔案大小。掃描的 PDF 檔案的大小與原生 PDF 檔案的大小上限相同。
描述 | 名額 / 指引 |
---|---|
影像大小 (JPG 或 PNG) | 1 個字節-10 MB |
影像尺寸 | 1 個字節-10 MB。最多一頁。 |
如需有關影像的其他資訊,請參閱影像的最佳做法。
根據預設,Amazon Comprehend 會使用 Amazon Textract 字提取 DetectDocumentText
API 操作,從影像檔案和掃描的 PDF 檔案中擷取文字。您可以覆寫此預設值,改為使用 AnalyzeDocument
API 作業。請參閱 設定文字擷取選項。
Amazon Textract 取輸出 JSON 文件
對於自訂實體辨識而非自訂分類,您可以提供 Amazon Textract AnalyzeDocument
API 操作的輸出檔案作為分析任務的輸入。