Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Preparazione dei dati di formazione di Entity Recognizer
Per addestrare un modello di riconoscimento delle entità personalizzato di successo, è importante fornire al model trainer dati di alta qualità come input. Senza dati affidabili, il modello non imparerà a identificare correttamente le entità.
Puoi scegliere uno dei due modi per fornire dati ad Amazon Comprehend per addestrare un modello di riconoscimento delle entità personalizzato:
-
Elenco di entità: elenca le entità specifiche in modo che Amazon Comprehend possa addestrarsi a identificare le entità personalizzate. Nota: gli elenchi di entità possono essere utilizzati solo per documenti di testo semplice.
-
Annotazioni: fornisce la posizione delle entità in una serie di documenti in modo che Amazon Comprehend possa addestrarsi sia sull'entità che sul suo contesto. Per creare un modello per l'analisi di file di immagini, PDF o documenti Word, devi addestrare il tuo riconoscitore a utilizzare le annotazioni PDF.
In entrambi i casi, Amazon Comprehend apprende il tipo di documenti e il contesto in cui si trovano le entità e crea un sistema di riconoscimento che può generalizzare per rilevare le nuove entità quando analizzi i documenti.
Quando crei un modello personalizzato (o addestra una nuova versione), puoi fornire un set di dati di test. Se non fornisci dati di test, Amazon Comprehend riserva il 10% dei documenti di input per testare il modello. Amazon Comprehend addestra il modello con i documenti rimanenti.
Se fornisci un set di dati di test per il tuo set di formazione sulle annotazioni, i dati di test devono includere almeno un'annotazione per ciascuno dei tipi di entità specificati nella richiesta di creazione.
Argomenti
Quando utilizzare le annotazioni rispetto agli elenchi di entità
La creazione di annotazioni richiede più lavoro rispetto alla creazione di un elenco di entità, ma il modello risultante può essere molto più preciso. L'utilizzo di un elenco di entità è più rapido e meno impegnativo, ma i risultati sono meno raffinati e meno accurati. Questo perché le annotazioni forniscono più contesto per Amazon Comprehend da utilizzare durante l'addestramento del modello. Senza tale contesto, Amazon Comprehend avrà un numero maggiore di falsi positivi quando cercherà di identificare le entità.
Ci sono scenari in cui è più conveniente dal punto di vista commerciale evitare le spese e il carico di lavoro più elevati derivanti dall'uso delle annotazioni. Ad esempio, il nome John Johnson è importante per la ricerca, ma il fatto che si tratti della persona esatta non è rilevante. Oppure, le metriche utilizzate nell'elenco delle entità sono sufficientemente valide da fornirti i risultati di riconoscimento di cui hai bisogno. In questi casi, utilizzare invece un elenco di entità può essere la scelta più efficace.
Si consiglia di utilizzare la modalità annotazioni nei seguenti casi:
-
Se prevedi di eseguire inferenze per file di immagine, PDF o documenti Word. In questo scenario, si addestra un modello utilizzando file PDF con annotazioni e si utilizza il modello per eseguire lavori di inferenza per file di immagine, PDF e documenti Word.
-
Quando il significato delle entità potrebbe essere ambiguo e dipendente dal contesto. Ad esempio, il termine Amazon potrebbe riferirsi al fiume in Brasile o al rivenditore online Amazon.com. Quando crei un identificatore di entità personalizzato per identificare entità aziendali come Amazon, dovresti utilizzare le annotazioni anziché un elenco di entità perché questo metodo consente di utilizzare meglio il contesto per trovare le entità.
-
Quando ti senti a tuo agio nella configurazione di un processo per l'acquisizione delle annotazioni, l'operazione può richiedere un certo impegno.
Si consiglia di utilizzare un elenco di entità nei seguenti casi:
-
Quando si dispone già di un elenco di entità o quando è relativamente semplice comporre un elenco completo di entità. Se utilizzi un elenco di entità, l'elenco deve essere completo o almeno includere la maggior parte delle entità valide che potrebbero apparire nei documenti che fornisci per la formazione.
-
Per gli utenti alle prime armi, in genere si consiglia di utilizzare un elenco di entità perché ciò richiede uno sforzo minore rispetto alla creazione di annotazioni. Tuttavia, è importante notare che il modello addestrato potrebbe non essere accurato come se si utilizzassero le annotazioni.