非同步自訂分析的輸入

您可以將多個文件輸入自訂非同步分析任務。下列主題說明您可以使用的輸入文件類型。檔案大小上限會根據輸入文件的類型而有所不同。

純文字文件

以 UTF-8-formatted文字提供所有純文字輸入文件。下表列出檔案大小上限和其他準則。

當所有輸入檔案都是純文字時，這些限制適用。

半結構化文件包括原生 PDF 文件和 Word 文件。

下表列出檔案大小上限和其他準則。

Description	Quota/Guideline
文件大小 (PDF)	1 位元組–50 MB
文件大小 (Docx)	1 位元組–5 MB
檔案數量上限	500
PDF 或 Docx 檔案的頁面數上限	100
文字擷取後的文件 corpus 大小（純文字，所有檔案合併）	1 位元組–5 GB

根據預設，自訂分析會使用 Amazon Comprehend 剖析器，從 Word 檔案和數位 PDF 檔案擷取文字。對於 PDF 檔案，您可以覆寫此預設值，並使用 Amazon Textract 擷取文字。請參閱設定文字擷取選項。

自訂分析支援 JPEG、PNG 和 TIFF 影像。

下表列出映像的檔案大小上限。掃描的 PDF 檔案的大小上限與原生 PDF 檔案相同。

Description	Quota/Guideline
影像大小 (JPG 或 PNG)	1 位元組–10 MB
影像大小 (TIFF)	1 位元組–10 MB。最多一個頁面。

如需映像的詳細資訊，請參閱映像的最佳實務。

根據預設，Amazon Comprehend 會使用 Amazon Textract DetectDocumentText API 操作，從影像檔案和掃描的 PDF 檔案擷取文字。您可以覆寫此預設值，改為使用 AnalyzeDocument API 操作。請參閱設定文字擷取選項。

對於自訂實體辨識，但不是自訂分類，您可以提供來自 Amazon Textract AnalyzeDocument API 操作的輸出檔案作為分析任務的輸入。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

用於即時分析的輸入

設定文字擷取選項