Uscite per input di testo Output per documenti di input semistrutturati

Output per lavori di analisi asincroni

Al termine di un processo di analisi, memorizza i risultati nel bucket S3 specificato nella richiesta.

Uscite per input di testo

Per entrambi i formati di documenti di input di testo (multiclasse o multietichetta), l'output del lavoro è costituito da un singolo file denominato. output.tar.gz È un file di archivio compresso che contiene un file di testo con l'output.

Multi-class output

Quando si utilizza un classificatore addestrato in modalità multiclasse, i risultati vengono visualizzati. classes Ognuna di queste classes è la classe utilizzata per creare l'insieme di categorie durante l'addestramento del classificatore.

Per ulteriori dettagli su questi campi di output, consulta ClassifyDocumentAmazon Comprehend API Reference.

Gli esempi seguenti utilizzano le seguenti classi che si escludono a vicenda.


DOCUMENTARY
SCIENCE_FICTION
ROMANTIC_COMEDY
SERIOUS_DRAMA
OTHER

Se il formato dei dati di input è un documento per riga, il file di output contiene una riga per ogni riga dell'input. Ogni riga include il nome del file, il numero di riga a base zero della riga di input e la classe o le classi presenti nel documento. Termina con la certezza che Amazon Comprehend ha che la singola istanza sia stata classificata correttamente.

Esempio:


{"File": "file1.txt", "Line": "0", "Classes": [{"Name": "Documentary", "Score": 0.8642}, {"Name": "Other", "Score": 0.0381}, {"Name": "Serious_Drama", "Score": 0.0372}]}
{"File": "file1.txt", "Line": "1", "Classes": [{"Name": "Science_Fiction", "Score": 0.5}, {"Name": "Science_Fiction", "Score": 0.0381}, {"Name": "Science_Fiction", "Score": 0.0372}]}
{"File": "file2.txt", "Line": "2", "Classes": [{"Name": "Documentary", "Score": 0.1}, {"Name": "Documentary", "Score": 0.0381}, {"Name": "Documentary", "Score": 0.0372}]}
{"File": "file2.txt", "Line": "3", "Classes": [{"Name": "Serious_Drama", "Score": 0.3141}, {"Name": "Other", "Score": 0.0381}, {"Name": "Other", "Score": 0.0372}]}

Se il formato dei dati di input è un documento per file, il file di output contiene una riga per ogni documento. Ogni riga contiene il nome del file e la classe o le classi presenti nel documento. Termina con la certezza che Amazon Comprehend abbia classificato accuratamente la singola istanza.

Esempio:


{"File": "file0.txt", "Classes": [{"Name": "Documentary", "Score": 0.8642}, {"Name": "Other", "Score": 0.0381}, {"Name": "Serious_Drama", "Score": 0.0372}]}
{"File": "file1.txt", "Classes": [{"Name": "Science_Fiction", "Score": 0.5}, {"Name": "Science_Fiction", "Score": 0.0381}, {"Name": "Science_Fiction", "Score": 0.0372}]}
{"File": "file2.txt", "Classes": [{"Name": "Documentary", "Score": 0.1}, {"Name": "Documentary", "Score": 0.0381}, {"Name": "Domentary", "Score": 0.0372}]}
{"File": "file3.txt", "Classes": [{"Name": "Serious_Drama", "Score": 0.3141}, {"Name": "Other", "Score": 0.0381}, {"Name": "Other", "Score": 0.0372}]}

Multi-label output

Quando usi un classificatore addestrato in modalità multietichetta, i risultati vengono visualizzati. labels Ognuna di queste labels è l'etichetta utilizzata per creare l'insieme di categorie durante l'addestramento del classificatore.

Gli esempi seguenti utilizzano queste etichette uniche.


SCIENCE_FICTION
ACTION
DRAMA
COMEDY
ROMANCE

Esempio:


{"File": "file1.txt", "Line": "0", "Labels": [{"Name": "Action", "Score": 0.8642}, {"Name": "Drama", "Score": 0.650}, {"Name": "Science Fiction", "Score": 0.0372}]}
{"File": "file1.txt", "Line": "1", "Labels": [{"Name": "Comedy", "Score": 0.5}, {"Name": "Action", "Score": 0.0381}, {"Name": "Drama", "Score": 0.0372}]}
{"File": "file1.txt", "Line": "2", "Labels": [{"Name": "Action", "Score": 0.9934}, {"Name": "Drama", "Score": 0.0381}, {"Name": "Action", "Score": 0.0372}]}
{"File": "file1.txt", "Line": "3", "Labels": [{"Name": "Romance", "Score": 0.9845}, {"Name": "Comedy", "Score": 0.8756}, {"Name": "Drama", "Score": 0.7723}, {"Name": "Science_Fiction", "Score": 0.6157}]}

Esempio:


{"File": "file0.txt", "Labels": [{"Name": "Action", "Score": 0.8642}, {"Name": "Drama", "Score": 0.650}, {"Name": "Science Fiction", "Score": 0.0372}]}
{"File": "file1.txt", "Labels": [{"Name": "Comedy", "Score": 0.5}, {"Name": "Action", "Score": 0.0381}, {"Name": "Drama", "Score": 0.0372}]}
{"File": "file2.txt", "Labels": [{"Name": "Action", "Score": 0.9934}, {"Name": "Drama", "Score": 0.0381}, {"Name": "Action", "Score": 0.0372}]}
{"File": "file3.txt”, "Labels": [{"Name": "Romance", "Score": 0.9845}, {"Name": "Comedy", "Score": 0.8756}, {"Name": "Drama", "Score": 0.7723}, {"Name": "Science_Fiction", "Score": 0.6157}]}

Output per documenti di input semistrutturati

Per i documenti di input semistrutturati, l'output può includere i seguenti campi aggiuntivi:

DocumentMetadata — Informazioni di estrazione sul documento. I metadati includono un elenco di pagine del documento, con il numero di caratteri estratti da ciascuna pagina. Questo campo è presente nella risposta se la richiesta includeva il Byte parametro.
DocumentType — Il tipo di documento per ogni pagina del documento di input. Questo campo è presente nella risposta se la richiesta includeva il Byte parametro.
Errori: Page-level errori rilevati dal sistema durante l'elaborazione del documento di input. Il campo è vuoto se il sistema non ha riscontrato errori.

Per ulteriori dettagli su questi campi di output, consulta ClassifyDocumentAmazon Comprehend API Reference.

L'esempio seguente mostra l'output di un file PDF scansionato di due pagine.



[{ #First page output
    "Classes": [
        {
            "Name": "__label__2 ",
            "Score": 0.9993996620178223
        },
        {
            "Name": "__label__3 ",
            "Score": 0.0004330444789957255
        }
    ],
    "DocumentMetadata": {
        "PageNumber": 1,
        "Pages": 2
    },
    "DocumentType": "ScannedPDF",
    "File": "file.pdf",
    "Version": "VERSION_NUMBER"
},
#Second page output
{
    "Classes": [
        {
            "Name": "__label__2 ",
            "Score": 0.9993996620178223
        },
        {
            "Name": "__label__3 ",
            "Score": 0.0004330444789957255
        }
    ],
    "DocumentMetadata": {
        "PageNumber": 2,
        "Pages": 2
    },
    "DocumentType": "ScannedPDF",
    "File": "file.pdf",
    "Version": "VERSION_NUMBER" 
}]

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Lavori di analisi (API)

Riconoscimento personalizzato delle entità