Riconoscimento personalizzato delle entità - Amazon Comprehend

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Riconoscimento personalizzato delle entità

Il riconoscimento personalizzato delle entità estende le funzionalità di Amazon Comprehend aiutandoti a identificare nuovi tipi di entità specifici che non rientrano nei tipi di entità generici preimpostati. Ciò significa che puoi analizzare documenti ed estrarre entità come codici di prodotto o entità specifiche dell'azienda che soddisfano le tue esigenze particolari.

La creazione autonoma di un riconoscimento di entità accurato e personalizzato può essere un processo complesso, che richiede la preparazione di grandi set di documenti di formazione annotati manualmente e la selezione degli algoritmi e dei parametri corretti per l'addestramento dei modelli. Amazon Comprehend aiuta a ridurre la complessità fornendo annotazioni automatiche e lo sviluppo di modelli per creare un modello di riconoscimento delle entità personalizzato.

La creazione di un modello di riconoscimento delle entità personalizzato è un approccio più efficace rispetto all'utilizzo di corrispondenze di stringhe o espressioni regolari per estrarre entità dai documenti. Ad esempio, per estrarre i nomi ENGINEER in un documento, è difficile enumerare tutti i nomi possibili. Inoltre, senza contesto, è difficile distinguere tra i nomi ENGINEER e i nomi ANALYST. Un modello di riconoscimento delle entità personalizzato può apprendere il contesto in cui è probabile che compaiano tali nomi. Inoltre, la corrispondenza tra stringhe non rileva le entità che presentano errori di battitura o seguono nuove convenzioni di denominazione, mentre ciò è possibile utilizzando un modello personalizzato.

Sono disponibili due opzioni per creare un modello personalizzato:

  1. Annotazioni: forniscono un set di dati contenente entità annotate per l'addestramento del modello.

  2. Elenchi di entità (solo testo semplice): forniscono un elenco di entità e la relativa etichetta di tipo (ad esempio, un set di documenti non annotati contenenti tali entità per l'addestramento dei modelli). PRODUCT_CODES

Quando si crea un riconoscimento di entità personalizzato utilizzando file PDF annotati, è possibile utilizzarlo con una varietà di formati di file di input: testo semplice, file di immagine (JPG, PNG, TIFF), file PDF e documenti Word, senza necessità di preelaborazione o appiattimento del documento. Amazon Comprehend non supporta l'annotazione di file di immagine o documenti Word.

Nota

Un riconoscitore di entità personalizzato che utilizza file PDF annotati supporta solo documenti in inglese.

È possibile addestrare un modello su un massimo di 25 entità personalizzate contemporaneamente. Per maggiori dettagli, consulta la pagina Linee guida e quote.

Dopo aver addestrato il modello, puoi utilizzarlo per il rilevamento delle entità in tempo reale e nei lavori di rilevamento delle entità.