Output per lavori di analisi asincroni - Amazon Comprehend

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Output per lavori di analisi asincroni

Al termine di un processo di analisi, memorizza i risultati nel bucket S3 specificato nella richiesta.

Uscite per input di testo

Per entrambi i formati di documenti di input di testo (multiclasse o multietichetta), l'output del lavoro è costituito da un singolo file denominato. output.tar.gz È un file di archivio compresso che contiene un file di testo con l'output.

Output multiclasse

Quando si utilizza un classificatore addestrato in modalità multiclasse, i risultati vengono visualizzati. classes Ognuna di queste classes è la classe utilizzata per creare l'insieme di categorie durante l'addestramento del classificatore.

Per ulteriori dettagli su questi campi di output, consulta ClassifyDocumentAmazon Comprehend API Reference.

Gli esempi seguenti utilizzano le seguenti classi che si escludono a vicenda.

DOCUMENTARY SCIENCE_FICTION ROMANTIC_COMEDY SERIOUS_DRAMA OTHER

Se il formato dei dati di input è un documento per riga, il file di output contiene una riga per ogni riga dell'input. Ogni riga include il nome del file, il numero di riga a base zero della riga di input e la classe o le classi presenti nel documento. Termina con la certezza che Amazon Comprehend ha che la singola istanza sia stata classificata correttamente.

Per esempio:

{"File": "file1.txt", "Line": "0", "Classes": [{"Name": "Documentary", "Score": 0.8642}, {"Name": "Other", "Score": 0.0381}, {"Name": "Serious_Drama", "Score": 0.0372}]} {"File": "file1.txt", "Line": "1", "Classes": [{"Name": "Science_Fiction", "Score": 0.5}, {"Name": "Science_Fiction", "Score": 0.0381}, {"Name": "Science_Fiction", "Score": 0.0372}]} {"File": "file2.txt", "Line": "2", "Classes": [{"Name": "Documentary", "Score": 0.1}, {"Name": "Documentary", "Score": 0.0381}, {"Name": "Documentary", "Score": 0.0372}]} {"File": "file2.txt", "Line": "3", "Classes": [{"Name": "Serious_Drama", "Score": 0.3141}, {"Name": "Other", "Score": 0.0381}, {"Name": "Other", "Score": 0.0372}]}

Se il formato dei dati di input è un documento per file, il file di output contiene una riga per ogni documento. Ogni riga contiene il nome del file e la classe o le classi presenti nel documento. Termina con la certezza che Amazon Comprehend abbia classificato accuratamente la singola istanza.

Per esempio:

{"File": "file0.txt", "Classes": [{"Name": "Documentary", "Score": 0.8642}, {"Name": "Other", "Score": 0.0381}, {"Name": "Serious_Drama", "Score": 0.0372}]} {"File": "file1.txt", "Classes": [{"Name": "Science_Fiction", "Score": 0.5}, {"Name": "Science_Fiction", "Score": 0.0381}, {"Name": "Science_Fiction", "Score": 0.0372}]} {"File": "file2.txt", "Classes": [{"Name": "Documentary", "Score": 0.1}, {"Name": "Documentary", "Score": 0.0381}, {"Name": "Domentary", "Score": 0.0372}]} {"File": "file3.txt", "Classes": [{"Name": "Serious_Drama", "Score": 0.3141}, {"Name": "Other", "Score": 0.0381}, {"Name": "Other", "Score": 0.0372}]}

Output multietichetta

Quando si utilizza un classificatore addestrato in modalità multietichetta, i risultati vengono visualizzati. labels Ognuna di queste labels è l'etichetta utilizzata per creare l'insieme di categorie durante l'addestramento del classificatore.

Gli esempi seguenti utilizzano queste etichette uniche.

SCIENCE_FICTION ACTION DRAMA COMEDY ROMANCE

Se il formato dei dati di input è un documento per riga, il file di output contiene una riga per ogni riga dell'input. Ogni riga include il nome del file, il numero di riga a base zero della riga di input e la classe o le classi presenti nel documento. Termina con la certezza che Amazon Comprehend ha che la singola istanza sia stata classificata correttamente.

Per esempio:

{"File": "file1.txt", "Line": "0", "Labels": [{"Name": "Action", "Score": 0.8642}, {"Name": "Drama", "Score": 0.650}, {"Name": "Science Fiction", "Score": 0.0372}]} {"File": "file1.txt", "Line": "1", "Labels": [{"Name": "Comedy", "Score": 0.5}, {"Name": "Action", "Score": 0.0381}, {"Name": "Drama", "Score": 0.0372}]} {"File": "file1.txt", "Line": "2", "Labels": [{"Name": "Action", "Score": 0.9934}, {"Name": "Drama", "Score": 0.0381}, {"Name": "Action", "Score": 0.0372}]} {"File": "file1.txt", "Line": "3", "Labels": [{"Name": "Romance", "Score": 0.9845}, {"Name": "Comedy", "Score": 0.8756}, {"Name": "Drama", "Score": 0.7723}, {"Name": "Science_Fiction", "Score": 0.6157}]}

Se il formato dei dati di input è un documento per file, il file di output contiene una riga per ogni documento. Ogni riga contiene il nome del file e la classe o le classi presenti nel documento. Termina con la certezza che Amazon Comprehend abbia classificato accuratamente la singola istanza.

Per esempio:

{"File": "file0.txt", "Labels": [{"Name": "Action", "Score": 0.8642}, {"Name": "Drama", "Score": 0.650}, {"Name": "Science Fiction", "Score": 0.0372}]} {"File": "file1.txt", "Labels": [{"Name": "Comedy", "Score": 0.5}, {"Name": "Action", "Score": 0.0381}, {"Name": "Drama", "Score": 0.0372}]} {"File": "file2.txt", "Labels": [{"Name": "Action", "Score": 0.9934}, {"Name": "Drama", "Score": 0.0381}, {"Name": "Action", "Score": 0.0372}]} {"File": "file3.txt”, "Labels": [{"Name": "Romance", "Score": 0.9845}, {"Name": "Comedy", "Score": 0.8756}, {"Name": "Drama", "Score": 0.7723}, {"Name": "Science_Fiction", "Score": 0.6157}]}

Output per documenti di input semistrutturati

Per i documenti di input semistrutturati, l'output può includere i seguenti campi aggiuntivi:

  • DocumentMetadata — Informazioni di estrazione sul documento. I metadati includono un elenco di pagine del documento, con il numero di caratteri estratti da ciascuna pagina. Questo campo è presente nella risposta se la richiesta includeva il Byte parametro.

  • DocumentType — Il tipo di documento per ogni pagina del documento di input. Questo campo è presente nella risposta se la richiesta includeva il Byte parametro.

  • Errori: errori a livello di pagina rilevati dal sistema durante l'elaborazione del documento di input. Il campo è vuoto se il sistema non ha riscontrato errori.

Per ulteriori dettagli su questi campi di output, consulta ClassifyDocumentAmazon Comprehend API Reference.

L'esempio seguente mostra l'output di un file PDF scansionato di due pagine.

[{ #First page output "Classes": [ { "Name": "__label__2 ", "Score": 0.9993996620178223 }, { "Name": "__label__3 ", "Score": 0.0004330444789957255 } ], "DocumentMetadata": { "PageNumber": 1, "Pages": 2 }, "DocumentType": "ScannedPDF", "File": "file.pdf", "Version": "VERSION_NUMBER" }, #Second page output { "Classes": [ { "Name": "__label__2 ", "Score": 0.9993996620178223 }, { "Name": "__label__3 ", "Score": 0.0004330444789957255 } ], "DocumentMetadata": { "PageNumber": 2, "Pages": 2 }, "DocumentType": "ScannedPDF", "File": "file.pdf", "Version": "VERSION_NUMBER" }]