Addestra riconoscitori personalizzati (console) - Amazon Comprehend

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Addestra riconoscitori personalizzati (console)

Puoi creare riconoscitori di entità personalizzati utilizzando la console Amazon Comprehend. Questa sezione mostra come creare e addestrare un riconoscitore di entità personalizzato.

Argomenti

    Per creare il riconoscimento di entità personalizzato, fornisci innanzitutto un set di dati per addestrare il tuo modello. Con questo set di dati, includi uno dei seguenti: un set di documenti annotati o un elenco di entità e la relativa etichetta di tipo, insieme a un set di documenti contenenti tali entità. Per ulteriori informazioni, consulta Riconoscimento personalizzato delle entità

    Per addestrare un riconoscitore di entità personalizzato con un file CSV
    1. Accedi AWS Management Console e apri la console Amazon Comprehend all'indirizzo https://console.aws.amazon.com/comprehend/

    2. Dal menu a sinistra, scegli Personalizzazione, quindi scegli Riconoscimento personalizzato delle entità.

    3. Scegli Crea nuovo modello.

    4. Assegna un nome al riconoscitore. Il nome deve essere univoco all'interno della regione e dell'account.

    5. Seleziona la lingua.

    6. In Tipo di entità personalizzato, inserisci un'etichetta personalizzata che desideri che il riconoscitore trovi nel set di dati.

      Il tipo di entità deve essere in lettere maiuscole e, se è composto da più di una parola, separale con un carattere di sottolineatura.

    7. Scegli Aggiungi tipo.

    8. Se desideri aggiungere un altro tipo di entità, inseriscilo e quindi scegli Aggiungi tipo. Se desideri rimuovere uno dei tipi di entità che hai aggiunto, scegli Rimuovi tipo, quindi scegli il tipo di entità da rimuovere dall'elenco. È possibile elencare un massimo di 25 tipi di entità.

    9. Per crittografare il tuo lavoro di formazione, scegli la crittografia Recognizer, quindi scegli se utilizzare una chiave KMS associata all'account corrente o una di un altro account.

      • Se utilizzi una chiave associata all'account corrente, per KMS key ID scegli l'ID della chiave.

      • Se utilizzi una chiave associata a un account diverso, per l'ARN della chiave KMS inserisci l'ARN per l'ID della chiave.

      Nota

      Per ulteriori informazioni sulla creazione e l'utilizzo delle chiavi KMS e sulla crittografia associata, consulta. AWS Key Management Service

    10. In Specifiche dei dati, scegli il formato dei tuoi documenti di formazione:

      • File CSV: un file CSV che integra i documenti di formazione. Il file CSV contiene informazioni sulle entità personalizzate che il modello addestrato rileverà. Il formato richiesto del file dipende dal fatto che stiate fornendo annotazioni o un elenco di entità.

      • Augmented manifest: set di dati etichettato prodotto da Amazon Ground Truth SageMaker . Questo file è in formato JSON lines. Ogni riga è un oggetto JSON completo che contiene un documento di formazione e le relative etichette. Ogni etichetta annota un'entità denominata nel documento di formazione. È possibile fornire fino a 5 file manifest aumentati.

      Per ulteriori informazioni sui formati disponibili e per esempi, vedereAddestramento di modelli di riconoscimento di entità personalizzati.

    11. In Tipo di allenamento, scegli il tipo di allenamento da utilizzare:

      • Utilizzo di annotazioni e documenti di formazione

      • Utilizzo dell'elenco delle entità e dei documenti di formazione

      Se scegli le annotazioni, inserisci l'URL del file delle annotazioni in Amazon S3. Puoi anche accedere al bucket o alla cartella in Amazon S3 in cui si trovano i file di annotazione e scegliere Browse S3.

      Se scegli un elenco di entità, inserisci l'URL dell'elenco di entità in Amazon S3. Puoi anche accedere al bucket o alla cartella in Amazon S3 in cui si trova l'elenco delle entità e scegliere Browse S3.

    12. Inserisci l'URL di un set di dati di input contenente i documenti di formazione in Amazon S3. Puoi anche accedere al bucket o alla cartella in Amazon S3 in cui si trovano i documenti di formazione e scegliere Seleziona cartella.

    13. In Set di dati di test seleziona come desideri valutare le prestazioni del tuo modello addestrato: puoi farlo sia per le annotazioni che per i tipi di addestramento con elenco di entità.

      • Autosplit: Autosplit seleziona automaticamente il 10% dei dati di formazione forniti da utilizzare come dati di test

      • (Facoltativo) Forniti dal cliente: quando si seleziona Fornito dal cliente, è possibile specificare esattamente quali dati di test si desidera utilizzare.

    14. Se selezioni Set di dati di test fornito dal cliente, inserisci l'URL del file di annotazioni in Amazon S3. Puoi anche accedere al bucket o alla cartella in Amazon S3 in cui si trovano i file di annotazione e scegliere Seleziona cartella.

    15. Nella sezione Scegli un ruolo IAM, seleziona un ruolo IAM esistente o creane uno nuovo.

      • Scegli un ruolo IAM esistente: seleziona questa opzione se disponi già di un ruolo IAM con autorizzazioni per accedere ai bucket Amazon S3 di input e output.

      • Crea un nuovo ruolo IAM: seleziona questa opzione quando desideri creare un nuovo ruolo IAM con le autorizzazioni appropriate per Amazon Comprehend per accedere ai bucket di input e output.

        Nota

        Se i documenti di input sono crittografati, il ruolo IAM utilizzato deve disporre dell'autorizzazione. kms:Decrypt Per ulteriori informazioni, consulta Autorizzazioni necessarie per utilizzare la crittografia KMS.

    16. (Facoltativo) Per avviare le tue risorse in Amazon Comprehend da un VPC, inserisci l'ID VPC in VPC o scegli l'ID dall'elenco a discesa.

      1. Scegli la sottorete in Subnet (s). Dopo aver selezionato la prima sottorete, è possibile sceglierne altre.

      2. In Gruppi di sicurezza, scegli il gruppo di sicurezza da utilizzare, se ne hai specificato uno. Dopo aver selezionato il primo gruppo di sicurezza, puoi sceglierne altri.

      Nota

      Quando utilizzi un VPC con il tuo processo di riconoscimento delle entità personalizzato, l'oggetto DataAccessRole utilizzato per le operazioni di creazione e avvio deve disporre delle autorizzazioni per il VPC da cui si accede ai documenti di input e al bucket di output.

    17. (Facoltativo) Per aggiungere un tag al riconoscimento di entità personalizzato, inserisci una coppia chiave-valore in Tag. Selezionare Aggiungi tag. Per rimuovere questa coppia prima di creare il riconoscitore, scegliete Rimuovi tag.

    18. Scegliete Treno.

    Il nuovo sistema di riconoscimento verrà quindi visualizzato nell'elenco, mostrandone lo stato. Verrà visualizzato per la prima volta comeSubmitted. Verrà quindi visualizzato Training per un classificatore che sta elaborando documenti di formazione, Trained per un classificatore pronto all'uso e In error per un classificatore che presenta un errore. È possibile fare clic su un lavoro per ottenere ulteriori informazioni sul programma di riconoscimento, inclusi eventuali messaggi di errore.

    Per addestrare un riconoscitore di entità personalizzato con un documento di testo semplice, PDF o Word
    1. Accedi AWS Management Console e apri la console Amazon Comprehend.

    2. Dal menu a sinistra, scegli Personalizzazione, quindi scegli Riconoscimento personalizzato delle entità.

    3. Scegli Train Recognizer.

    4. Assegna un nome al riconoscitore. Il nome deve essere univoco all'interno della regione e dell'account.

    5. Seleziona la lingua. Nota: se stai addestrando un documento PDF o Word, l'inglese è la lingua supportata.

    6. In Tipo di entità personalizzato, inserisci un'etichetta personalizzata che desideri che il riconoscimento trovi nel set di dati.

      Il tipo di entità deve essere in lettere maiuscole e, se è composto da più di una parola, separale con un carattere di sottolineatura.

    7. Scegli Aggiungi tipo.

    8. Se desideri aggiungere un altro tipo di entità, inseriscilo e quindi scegli Aggiungi tipo. Se desideri rimuovere uno dei tipi di entità che hai aggiunto, scegli Rimuovi tipo, quindi scegli il tipo di entità da rimuovere dall'elenco. È possibile elencare un massimo di 25 tipi di entità.

    9. Per crittografare il tuo lavoro di formazione, scegli la crittografia Recognizer, quindi scegli se utilizzare una chiave KMS associata all'account corrente o una di un altro account.

      • Se utilizzi una chiave associata all'account corrente, per KMS key ID scegli l'ID della chiave.

      • Se utilizzi una chiave associata a un account diverso, per l'ARN della chiave KMS inserisci l'ARN per l'ID della chiave.

      Nota

      Per ulteriori informazioni sulla creazione e l'utilizzo delle chiavi KMS e sulla crittografia associata, consulta. AWS Key Management Service

    10. In Dati di addestramento, scegli Augmented manifest come formato dei dati:

      • Augmented manifest: è un set di dati etichettato prodotto da Amazon Ground Truth SageMaker . Questo file è in formato JSON lines. Ogni riga del file è un oggetto JSON completo che contiene un documento di formazione e le relative etichette. Ogni etichetta annota un'entità denominata nel documento di formazione. È possibile fornire fino a 5 file manifest aumentati. Se si utilizzano documenti PDF per i dati di addestramento, è necessario selezionare Augmented manifest. È possibile fornire fino a 5 file manifest aumentati. Per ogni file, puoi nominare fino a 5 attributi da utilizzare come dati di addestramento.

      Per ulteriori informazioni sui formati disponibili e per esempi, vedereAddestramento di modelli di riconoscimento di entità personalizzati.

    11. Seleziona il tipo di modello di allenamento.

      Se hai selezionato Documenti in testo semplice, in Posizione di input, inserisci l'Amazon S3URL del file manifesto aumentato di Amazon SageMakerGround Truth. Puoi anche accedere al bucket o alla cartella in Amazon S3 in cui si trovano i manifesti aumentati e scegliere Seleziona cartella.

    12. In Nome dell'attributo, inserisci il nome dell'attributo che contiene le tue annotazioni. Se il file contiene annotazioni provenienti da più lavori di etichettatura concatenati, aggiungi un attributo per ogni lavoro. In questo caso, ogni attributo contiene l'insieme di annotazioni di un processo di etichettatura. Nota: è possibile fornire fino a 5 nomi di attributi per ogni file.

    13. Selezionare Aggiungi.

    14. Se hai selezionato PDF, documenti Word in Posizione di input, inserisci l'Amazon S3URL del file manifesto aumentato di Amazon SageMaker Ground Truth. Puoi anche accedere al bucket o alla cartella in Amazon S3 in cui si trovano i manifesti aumentati e scegliere Seleziona cartella.

    15. Inserisci il prefisso S3 per i tuoi file di dati di Annotation. Questi sono i documenti PDF che hai etichettato.

    16. Inserisci il prefisso S3 per i tuoi documenti Source. Questi sono i documenti PDF originali (oggetti dati) che hai fornito a Ground Truth per il tuo lavoro di etichettatura.

    17. Inserisci i nomi degli attributi che contengono le tue annotazioni. Nota: puoi fornire fino a 5 nomi di attributi per ogni file. Tutti gli attributi del file che non specifichi vengono ignorati.

    18. Nella sezione ruolo IAM, seleziona un ruolo IAM esistente o creane uno nuovo.

      • Scegli un ruolo IAM esistente: seleziona questa opzione se disponi già di un ruolo IAM con autorizzazioni per accedere ai bucket Amazon S3 di input e output.

      • Crea un nuovo ruolo IAM: seleziona questa opzione quando desideri creare un nuovo ruolo IAM con le autorizzazioni appropriate per Amazon Comprehend per accedere ai bucket di input e output.

        Nota

        Se i documenti di input sono crittografati, il ruolo IAM utilizzato deve disporre dell'autorizzazione. kms:Decrypt Per ulteriori informazioni, consulta Autorizzazioni necessarie per utilizzare la crittografia KMS.

    19. (Facoltativo) Per avviare le tue risorse in Amazon Comprehend da un VPC, inserisci l'ID VPC in VPC o scegli l'ID dall'elenco a discesa.

      1. Scegli la sottorete in Subnet (s). Dopo aver selezionato la prima sottorete, è possibile sceglierne altre.

      2. In Gruppi di sicurezza, scegli il gruppo di sicurezza da utilizzare, se ne hai specificato uno. Dopo aver selezionato il primo gruppo di sicurezza, puoi sceglierne altri.

      Nota

      Quando utilizzi un VPC con il tuo processo di riconoscimento delle entità personalizzato, l'oggetto DataAccessRole utilizzato per le operazioni di creazione e avvio deve disporre delle autorizzazioni per il VPC da cui si accede ai documenti di input e al bucket di output.

    20. (Facoltativo) Per aggiungere un tag al riconoscimento di entità personalizzato, inserisci una coppia chiave-valore in Tag. Selezionare Aggiungi tag. Per rimuovere questa coppia prima di creare il riconoscitore, scegliete Rimuovi tag.

    21. Scegliete Treno.

    Il nuovo sistema di riconoscimento verrà quindi visualizzato nell'elenco, mostrandone lo stato. Verrà visualizzato per la prima volta comeSubmitted. Verrà quindi visualizzato Training per un classificatore che sta elaborando documenti di formazione, Trained per un classificatore pronto all'uso e In error per un classificatore che presenta un errore. È possibile fare clic su un lavoro per ottenere ulteriori informazioni sul programma di riconoscimento, inclusi eventuali messaggi di errore.