Documents en texte brut Semi-structured Documents Fichiers image et fichiers PDF numérisés Fichiers JSON de sortie Amazon Textract

Entrées pour une analyse personnalisée asynchrone

Vous pouvez saisir plusieurs documents dans une tâche d'analyse asynchrone personnalisée. Les rubriques suivantes décrivent les types de documents d'entrée que vous pouvez utiliser. La taille maximale du fichier varie en fonction du type de document d'entrée.

Documents en texte brut

Fournissez tous les documents d'entrée en texte brut sous forme UTF-8-formatted de texte. Le tableau suivant répertorie les tailles de fichier maximales et d'autres directives.

Note

Ces limites s'appliquent lorsque tous les fichiers d'entrée sont en texte brut.

Description	Quota/Guideline
Taille de fichier maximale pour un document par format de fichier (classification personnalisée)	1 octet—10 Mo
Taille du document (reconnaissance d'entité personnalisée)	1 octet—1 Mo
Nombre maximum de fichiers, un document par fichier	1 000 000
Nombre maximum de lignes, un document par ligne (pour tous les fichiers demandés)	1 000 000
Taille du corpus du document (tous les documents en texte brut combinés)	1 octet—5 Go

Semi-structured Documents

Semi-structured les documents incluent les documents PDF natifs et les documents Word.

Le tableau suivant répertorie les tailles de fichier maximales et d'autres directives.

Description	Quota/Guideline
Taille du document (PDF)	1 octet—50 Mo
Taille du document (Docx)	1 octet—5 Mo
Nombre maximum de fichiers	500
Nombre maximum de pages pour un fichier PDF ou Docx	100
Taille du corpus du document après extraction du texte (texte brut, tous fichiers confondus)	1 octet—5 Go

Par défaut, l'analyse personnalisée utilise l'analyseur Amazon Comprehend pour extraire le texte des fichiers Word et des fichiers PDF numériques. Pour les fichiers PDF, vous pouvez annuler cette valeur par défaut et utiliser Amazon Textract pour extraire le texte. Consultez Configuration des options d'extraction de texte.

Fichiers image et fichiers PDF numérisés

L'analyse personnalisée prend en charge les images JPEG, PNG et TIFF.

Le tableau suivant répertorie les tailles de fichier maximales pour les images. Les fichiers PDF numérisés sont soumis aux mêmes tailles maximales que les fichiers PDF natifs.

Description	Quota/Guideline
Taille de l'image (JPG ou PNG)	1 octet—10 Mo
Taille de l'image (TIFF)	1 octet à 10 Mo. Une page au maximum.

Pour plus d'informations sur les images, voirBonnes pratiques pour les images.

Par défaut, Amazon Comprehend utilise l'opération d'API Amazon DetectDocumentText Textract pour extraire le texte des fichiers image et des fichiers PDF numérisés. Vous pouvez remplacer cette valeur par défaut pour utiliser l'opération AnalyzeDocument API à la place. Consultez Configuration des options d'extraction de texte.

Fichiers JSON de sortie Amazon Textract

Pour une reconnaissance d'entité personnalisée, mais pas pour une classification personnalisée, vous pouvez fournir le fichier de sortie de l'opération d'AnalyzeDocumentAPI Amazon Textract en tant qu'entrée pour les tâches d'analyse.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Entrées pour une analyse en temps réel

Configuration des options d'extraction de texte