Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Entrées pour une analyse personnalisée asynchrone
Vous pouvez saisir plusieurs documents dans une tâche d'analyse asynchrone personnalisée. Les rubriques suivantes décrivent les types de documents d'entrée que vous pouvez utiliser. La taille maximale du fichier varie en fonction du type de document d'entrée.
Rubriques
Documents en texte brut
Fournissez tous les documents d'entrée en texte brut sous forme de texte au format UTF-8. Le tableau suivant répertorie les tailles de fichier maximales et d'autres directives.
Note
Ces limites s'appliquent lorsque tous les fichiers d'entrée sont en texte brut.
Description | Quot/ligne directrice |
---|---|
Taille de fichier maximale pour un document par format de fichier (classification personnalisée) | 1 octet—10 Mo |
Taille du document (reconnaissance d'entité personnalisée) | 1 octet—1 Mo |
Nombre maximum de fichiers, un document par fichier | 1 000 000 |
Nombre maximum de lignes, un document par ligne (pour tous les fichiers demandés) | 1 000 000 |
Taille du corpus du document (tous les documents en texte brut combinés) | 1 octet—5 Go |
Documents semi-structurés
Les documents semi-structurés incluent les documents PDF natifs et les documents Word.
Le tableau suivant répertorie les tailles de fichier maximales et d'autres directives.
Description | Quot/ligne directrice |
---|---|
Taille du document (PDF) | 1 octet—50 Mo |
Taille du document (Docx) | 1 octet—5 Mo |
Nombre maximum de fichiers | 500 |
Nombre maximum de pages pour un fichier PDF ou Docx | 100 |
Taille du corpus du document après extraction du texte (texte brut, tous fichiers confondus) | 1 octet—5 Go |
Par défaut, l'analyse personnalisée utilise l'analyseur Amazon Comprehend pour extraire le texte des fichiers Word et des fichiers PDF numériques. Pour les fichiers PDF, vous pouvez annuler cette valeur par défaut et utiliser Amazon Textract pour extraire le texte. veuillez consulter Configuration des options d'extraction de texte.
Fichiers image et fichiers PDF numérisés
L'analyse personnalisée prend en charge les images JPEG, PNG et TIFF.
Le tableau suivant répertorie les tailles de fichier maximales pour les images. Les fichiers PDF numérisés sont soumis aux mêmes tailles maximales que les fichiers PDF natifs.
Description | Quot/ligne directrice |
---|---|
Taille de l'image (JPG ou PNG) | 1 octet—10 Mo |
Taille de l'image (TIFF) | 1 octet à 10 Mo. Une page au maximum. |
Pour plus d'informations sur les images, voirBonnes pratiques pour les images.
Par défaut, Amazon Comprehend utilise l'opération d'API Amazon DetectDocumentText
Textract pour extraire le texte des fichiers image et des fichiers PDF numérisés. Vous pouvez remplacer cette valeur par défaut pour utiliser l'opération AnalyzeDocument
API à la place. veuillez consulter Configuration des options d'extraction de texte.
Fichiers JSON de sortie Amazon Textract
Pour une reconnaissance d'entité personnalisée, mais pas pour une classification personnalisée, vous pouvez fournir le fichier de sortie de l'opération d'AnalyzeDocument
API Amazon Textract en tant qu'entrée pour les tâches d'analyse.