Entrées pour une analyse personnalisée asynchrone - Amazon Comprehend

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Entrées pour une analyse personnalisée asynchrone

Vous pouvez saisir plusieurs documents dans une tâche d'analyse asynchrone personnalisée. Les rubriques suivantes décrivent les types de documents d'entrée que vous pouvez utiliser. La taille maximale du fichier varie en fonction du type de document d'entrée.

Documents en texte brut

Fournissez tous les documents d'entrée en texte brut sous forme de texte au format UTF-8. Le tableau suivant répertorie les tailles de fichier maximales et d'autres directives.

Note

Ces limites s'appliquent lorsque tous les fichiers d'entrée sont en texte brut.

Description Quot/ligne directrice
Taille de fichier maximale pour un document par format de fichier (classification personnalisée) 1 octet—10 Mo
Taille du document (reconnaissance d'entité personnalisée) 1 octet—1 Mo
Nombre maximum de fichiers, un document par fichier 1 000 000
Nombre maximum de lignes, un document par ligne (pour tous les fichiers demandés) 1 000 000
Taille du corpus du document (tous les documents en texte brut combinés) 1 octet—5 Go

Documents semi-structurés

Les documents semi-structurés incluent les documents PDF natifs et les documents Word.

Le tableau suivant répertorie les tailles de fichier maximales et d'autres directives.

Description Quot/ligne directrice
Taille du document (PDF) 1 octet—50 Mo
Taille du document (Docx) 1 octet—5 Mo
Nombre maximum de fichiers 500
Nombre maximum de pages pour un fichier PDF ou Docx 100
Taille du corpus du document après extraction du texte (texte brut, tous fichiers confondus) 1 octet—5 Go

Par défaut, l'analyse personnalisée utilise l'analyseur Amazon Comprehend pour extraire le texte des fichiers Word et des fichiers PDF numériques. Pour les fichiers PDF, vous pouvez annuler cette valeur par défaut et utiliser Amazon Textract pour extraire le texte. veuillez consulter Configuration des options d'extraction de texte.

Fichiers image et fichiers PDF numérisés

L'analyse personnalisée prend en charge les images JPEG, PNG et TIFF.

Le tableau suivant répertorie les tailles de fichier maximales pour les images. Les fichiers PDF numérisés sont soumis aux mêmes tailles maximales que les fichiers PDF natifs.

Description Quot/ligne directrice
Taille de l'image (JPG ou PNG) 1 octet—10 Mo
Taille de l'image (TIFF) 1 octet à 10 Mo. Une page au maximum.

Pour plus d'informations sur les images, voirBonnes pratiques pour les images.

Par défaut, Amazon Comprehend utilise l'opération d'API Amazon DetectDocumentText Textract pour extraire le texte des fichiers image et des fichiers PDF numérisés. Vous pouvez remplacer cette valeur par défaut pour utiliser l'opération AnalyzeDocument API à la place. veuillez consulter Configuration des options d'extraction de texte.

Fichiers JSON de sortie Amazon Textract

Pour une reconnaissance d'entité personnalisée, mais pas pour une classification personnalisée, vous pouvez fournir le fichier de sortie de l'opération d'AnalyzeDocumentAPI Amazon Textract en tant qu'entrée pour les tâches d'analyse.