設定文字擷取選項

根據預設，Amazon Comprehend 會根據輸入檔案類型，執行下列動作以從檔案擷取文字：

Word 文件 — Amazon Comprehend 析器提取文本。
數字 PDF 文件 — Amazon Comprehend 析器提取文本。
影像檔案和掃描的 PDF 檔案 Amazon Comprehend 用 Amazon Textract 取 DetectDocumentText API 來擷取文字。

對於影像檔案和 PDF 檔案，您可以使用DocumentReaderConfig參數來取代這些預設擷取動作。當您使用 Amazon Comprehend 主控台或 API 進行即時或非同步自訂分析時，即可使用此參數。

DocumentReaderConfig參數包含三個欄位：

DocumentReadMode— 設定SERVICE_DEFAULT為可讓 Amazon Comprehend 執行預設動作。

設定為FORCE_DOCUMENT_READ_ACTION使用 Amazon Textract 解析數位 PDF 檔案。
DocumentReadAction— 設置 Amazon Textract 提取使用亞馬遜文本提取時使用的 Amazon Textract 本提取 API（DetectDocumentText 或 AnalyzeDocument）。
FeatureTypes— 如果您設DocumentReadAction定使用 AnalyzeDocument API 作業，您可以新增一或兩個 FeatureTypes (表格、表單)。這些功能提供有關文件中表格和表單的其他資訊。如需這些功能的詳細資訊，請參閱 Amazon Textract 文件分析回應物件。

下列範例顯示如何DocumentReaderConfig針對特定使用案例進行設定：

使用 Amazon Textract 取所有 PDF 文件。
1. DocumentReadMode – 設為 FORCE_DOCUMENT_READ_ACTION。
2. DocumentReadAction – 設為 TEXTRACT_DETECT_DOCUMENT_TEXT。
3. FeatureTypes— 不需要。
針對所有 PDF 和影像檔案使用 Amazon Textract 取 AnalyzeDocument API。
1. DocumentReadMode – 設為 FORCE_DOCUMENT_READ_ACTION。
2. DocumentReadAction – 設為 TEXTRACT_ANALYZE_DOCUMENT。
3. FeatureTypes— 設定為TABLES，FORMS或同時設定兩個功能。
對於掃描的 PDF 檔案和所有影像檔案，請使用 Amazon Textract 取 AnalyzeDocument API。
1. DocumentReadMode – 設為 SERVICE_DEFAULT。
2. DocumentReadAction – 設為 TEXTRACT_ANALYZE_DOCUMENT。
3. FeatureTypes— 設定為TABLES，FORMS或同時設定兩個功能。

如需 Amazon Textract 選項的詳細資訊，請參閱DocumentReaderConfig。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

非同步分析的輸入

影像的最佳做法