本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
設定文字擷取選項
根據預設,Amazon Comprehend 會根據輸入檔案類型,執行下列動作以從檔案擷取文字:
Word 文件 — Amazon Comprehend 析器提取文本。
數字 PDF 文件 — Amazon Comprehend 析器提取文本。
影像檔案和掃描的 PDF 檔案 Amazon Comprehend 用 Amazon Textract 取
DetectDocumentText
API 來擷取文字。
對於影像檔案和 PDF 檔案,您可以使用DocumentReaderConfig
參數來取代這些預設擷取動作。當您使用 Amazon Comprehend 主控台或 API 進行即時或非同步自訂分析時,即可使用此參數。
DocumentReaderConfig
參數包含三個欄位:
-
DocumentReadMode— 設定
SERVICE_DEFAULT
為可讓 Amazon Comprehend 執行預設動作。設定為
FORCE_DOCUMENT_READ_ACTION
使用 Amazon Textract 解析數位 PDF 檔案。 -
DocumentReadAction— 設置 Amazon Textract 提取使用亞馬遜文本提取時使用的 Amazon Textract 本提取 API(DetectDocumentText 或 AnalyzeDocument)。
FeatureTypes— 如果您設DocumentReadAction定使用 AnalyzeDocument API 作業,您可以新增一或兩個
FeatureTypes
(表格、表單)。這些功能提供有關文件中表格和表單的其他資訊。如需這些功能的詳細資訊,請參閱 Amazon Textract 文件分析回應物件。
下列範例顯示如何DocumentReaderConfig
針對特定使用案例進行設定:
使用 Amazon Textract 取所有 PDF 文件。
-
DocumentReadMode – 設為
FORCE_DOCUMENT_READ_ACTION
。 -
DocumentReadAction – 設為
TEXTRACT_DETECT_DOCUMENT_TEXT
。 -
FeatureTypes— 不需要。
-
針對所有 PDF 和影像檔案使用 Amazon Textract 取
AnalyzeDocument
API。-
DocumentReadMode – 設為
FORCE_DOCUMENT_READ_ACTION
。 -
DocumentReadAction – 設為
TEXTRACT_ANALYZE_DOCUMENT
。 -
FeatureTypes— 設定為
TABLES
,FORMS
或同時設定兩個功能。
-
對於掃描的 PDF 檔案和所有影像檔案,請使用 Amazon Textract 取
AnalyzeDocument
API。-
DocumentReadMode – 設為
SERVICE_DEFAULT
。 -
DocumentReadAction – 設為
TEXTRACT_ANALYZE_DOCUMENT
。 -
FeatureTypes— 設定為
TABLES
,FORMS
或同時設定兩個功能。
-
如需 Amazon Textract 選項的詳細資訊,請參閱DocumentReaderConfig。