Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Addestra classificatori personalizzati (console)
È possibile creare e addestrare un classificatore personalizzato utilizzando la console e quindi utilizzare il classificatore personalizzato per analizzare i documenti.
Per addestrare un classificatore personalizzato, è necessario un set di documenti di formazione. Etichettate questi documenti con le categorie che desiderate che il classificatore di documenti riconosca. Per informazioni sulla preparazione dei documenti di formazione, consultaPreparazione dei dati di addestramento del classificatore.
Per creare e addestrare un modello di classificazione dei documenti
-
Accedi AWS Management Console e apri la console Amazon Comprehend all'indirizzo https://console.aws.amazon.com/comprehend/
-
Dal menu a sinistra, scegli Personalizzazione, quindi scegli Classificazione personalizzata.
-
Scegli Crea nuovo modello.
-
In Impostazioni modello, inserisci un nome di modello per il classificatore. Il nome deve essere univoco all'interno del tuo account e della regione corrente.
(Facoltativo) Inserisci il nome di una versione. Il nome deve essere univoco all'interno del tuo account e della regione corrente.
-
Seleziona la lingua dei documenti di formazione. Per vedere le lingue supportate dai classificatori, vedi. Modelli di classificazione della formazione
-
(Facoltativo) Se desideri crittografare i dati nel volume di storage mentre Amazon Comprehend elabora il tuo processo di formazione, scegli la crittografia Classifier. Quindi scegli se utilizzare una KMS chiave associata al tuo account corrente o una di un altro account.
Se utilizzi una chiave associata all'account corrente, scegli l'ID della chiave per l'ID della KMSchiave.
Se utilizzi una chiave associata a un altro account, inserisci ARN l'ID della chiave sotto KMSchiave ARN.
Nota
Per ulteriori informazioni sulla creazione e l'utilizzo KMS delle chiavi e sulla crittografia associata, vedete AWS Key Management Service (AWS KMS).
-
In Specifiche dei dati, scegli il tipo di modello di addestramento da utilizzare.
Documenti di testo semplice: scegliete questa opzione per creare un modello di testo semplice. Addestra il modello utilizzando documenti di testo semplice.
Documenti nativi: scegliete questa opzione per creare un modello di documento nativo. Addestra il modello utilizzando documenti nativi (WordPDF, immagini).
-
Scegli il formato dei dati di allenamento. Per informazioni sui formati dei dati, vedereClassifier: formati di file di addestramento.
CSVfile: Scegliete questa opzione se i dati di allenamento utilizzano il formato di CSV file.
Manifesto aumentato: scegli questa opzione se hai utilizzato Ground Truth per creare file manifest aumentati per i tuoi dati di allenamento. Questo formato è disponibile se avete scelto Documenti in testo semplice come tipo di modello di allenamento.
-
Scegliete la modalità Classifier da usare.
Modalità etichetta singola: scegli questa modalità se le categorie che stai assegnando ai documenti si escludono a vicenda e stai addestrando il tuo classificatore ad assegnare un'etichetta a ciascun documento. In Amazon ComprehendAPI, la modalità a etichetta singola è nota come modalità multiclasse.
Modalità multietichetta: scegli questa modalità se è possibile applicare più categorie a un documento contemporaneamente e stai addestrando il classificatore ad assegnare una o più etichette a ciascun documento.
-
Se scegli la modalità Multi-etichetta, puoi selezionare il Delimitatore per le etichette. Utilizzate questo carattere delimitatore per separare le etichette quando vi sono più classi per un documento di formazione. Il delimitatore predefinito è il carattere pipe.
-
(Facoltativo) Se avete scelto Augmented manifest come formato di dati, potete inserire fino a cinque file manifest aumentati. Ogni file manifesto aumentato contiene un set di dati di addestramento o un set di dati di test. È necessario fornire almeno un set di dati di addestramento. I set di dati di test sono facoltativi. Utilizzate i seguenti passaggi per configurare i file manifest aumentati:
-
In Training and test dataset, espandi il pannello Input location.
-
In Tipo di set di dati, scegli Dati di addestramento o Dati di test.
-
Per la posizione S3 del file manifesto aumentato SageMaker AI Ground Truth, inserisci la posizione del bucket Amazon S3 che contiene il file manifest o accedi ad esso scegliendo Browse S3. Il IAM ruolo che stai utilizzando per le autorizzazioni di accesso per il processo di formazione deve disporre delle autorizzazioni di lettura per il bucket S3.
-
Per i nomi degli attributi, inserisci il nome dell'attributo che contiene le tue annotazioni. Se il file contiene annotazioni provenienti da più lavori di etichettatura concatenati, aggiungi un attributo per ogni lavoro.
Per aggiungere un'altra posizione di input, scegliete Aggiungi posizione di input e quindi configurate la posizione successiva.
-
-
(Facoltativo) Se avete scelto il CSVfile come formato dei dati, utilizzate i seguenti passaggi per configurare il set di dati di addestramento e il set di dati di test opzionale:
-
In Training dataset, inserisci la posizione del bucket Amazon S3 che contiene il tuo file di CSV dati di allenamento o accedi ad esso selezionando Browse S3. Il IAM ruolo che stai utilizzando per le autorizzazioni di accesso per il processo di formazione deve avere le autorizzazioni di lettura per il bucket S3.
(Facoltativo) Se hai scelto Documenti nativi come tipo di modello URL di formazione, fornisci anche la cartella Amazon S3 che contiene i file di esempio di formazione.
-
In Set di dati di test, seleziona se stai fornendo dati aggiuntivi ad Amazon Comprehend per testare il modello addestrato.
-
Autosplit: Autosplit seleziona automaticamente il 10% dei dati di allenamento da riservare per l'uso come dati di test.
(Facoltativo) Fornito dal cliente: inserisci il CSV file dei dati URL di test in Amazon S3. Puoi anche accedere alla sua posizione in Amazon S3 e scegliere Seleziona cartella.
(Facoltativo) Se hai scelto Documenti nativi come tipo di modello URL di formazione, fornisci anche la cartella Amazon S3 che contiene i file di test.
-
-
-
(Facoltativo) Per la modalità di lettura dei documenti, puoi sovrascrivere le azioni di estrazione del testo predefinite. Questa opzione non è richiesta per i modelli con testo semplice, poiché si applica all'estrazione del testo per i documenti scansionati. Per ulteriori informazioni, consulta Impostazione delle opzioni di estrazione del testo.
-
(Facoltativo per i modelli in testo semplice) Per i dati di output, inserisci la posizione di un bucket Amazon S3 per salvare i dati di output dell'allenamento, come la matrice di confusione. Per ulteriori informazioni, consulta Matrice di confusione.
(Facoltativo) Se scegli di crittografare il risultato dell'output del tuo processo di formazione, scegli Crittografia. Quindi scegli se utilizzare una KMS chiave associata all'account corrente o una di un altro account.
Se utilizzi una chiave associata all'account corrente, scegli l'alias della chiave per l'ID della KMS chiave.
Se utilizzi una chiave associata a un altro account, inserisci l'alias o ARN l'ID della chiave in ID KMSchiave.
-
Per IAMil ruolo, scegli Scegli un IAM ruolo esistente, quindi scegli un IAM ruolo esistente con autorizzazioni di lettura per il bucket S3 che contiene i tuoi documenti di formazione. Il ruolo deve avere una politica di fiducia che inizi con
comprehend.amazonaws.com
per essere valido.Se non disponi già di un IAM ruolo con queste autorizzazioni, scegli Crea un IAM ruolo per crearne uno. Scegli le autorizzazioni di accesso per concedere questo ruolo, quindi scegli un suffisso di nome per distinguere il ruolo dai IAM ruoli del tuo account.
Nota
Per i documenti di input crittografati, anche il IAM ruolo utilizzato deve disporre dell'autorizzazione.
kms:Decrypt
Per ulteriori informazioni, consulta Autorizzazioni necessarie per utilizzare la crittografia KMS. -
(Facoltativo) Per avviare le tue risorse in Amazon Comprehend da unVPC, inserisci l'VPCID sotto VPCo scegli l'ID dall'elenco a discesa.
Scegli la sottorete in Sottoreti. Dopo aver selezionato la prima sottorete, è possibile sceglierne altre.
In Gruppi di sicurezza, scegli il gruppo di sicurezza da utilizzare, se ne hai specificato uno. Dopo aver selezionato il primo gruppo di sicurezza, puoi sceglierne altri.
Nota
Quando si utilizza un processo VPC di classificazione, quello
DataAccessRole
utilizzato per le operazioni di creazione e avvio deve disporre delle autorizzazioni necessarie per accedere ai VPC documenti di input e al bucket di output. -
(Facoltativo) Per aggiungere un tag al classificatore personalizzato, inserite una coppia chiave-valore in Tag. Selezionare Aggiungi tag. Per rimuovere questa coppia prima di creare il classificatore, scegliete Rimuovi tag. Per ulteriori informazioni, consulta Tagging delle risorse .
-
Scegli Create (Crea) .
La console visualizza la pagina Classificatori. Il nuovo classificatore viene visualizzato nella tabella e ne viene visualizzato lo Submitted
stato. Quando il classificatore inizia a elaborare i documenti di formazione, lo stato cambia in. Training
Quando un classificatore è pronto per l'uso, lo stato diventa o. Trained
Trained with warnings
Se lo stato èTRAINED_WITH_WARNINGS
, esamina la cartella dei file ignorati in. Risultati formativi di Classifier
Se Amazon Comprehend ha riscontrato errori durante la creazione o la formazione, lo stato cambia in. In error
Puoi scegliere un lavoro di classificatore nella tabella per ottenere maggiori informazioni sul classificatore, inclusi eventuali messaggi di errore.