File di annotazioni PDF

Per le annotazioni PDF, si utilizza SageMaker Ground Truth per creare un set di dati etichettato in un file manifest aumentato. Ground Truth è un servizio di etichettatura dei dati che aiuta te (o la forza lavoro che impieghi) a creare set di dati di formazione per modelli di apprendimento automatico. Amazon Comprehend accetta file manifest aumentati come dati di addestramento per modelli personalizzati. Puoi fornire questi file quando crei un riconoscimento di entità personalizzato utilizzando la console Amazon Comprehend o CreateEntityRecognizerl'azione API.

È possibile utilizzare il tipo di attività integrato di Ground Truth, Named Entity Recognition, per creare un processo di etichettatura per consentire ai lavoratori di identificare le entità nel testo. Per ulteriori informazioni, consulta Named Entity Recognition nella Amazon SageMaker Developer Guide. Per ulteriori informazioni su Amazon SageMaker Ground Truth, consulta Use Amazon SageMaker Ground Truth to Label Data.

Nota

Usando Ground Truth, puoi definire etichette sovrapposte (testo che associ a più di un'etichetta). Tuttavia, il riconoscimento delle entità Amazon Comprehend non supporta etichette sovrapposte.

I file manifest aumentati sono in formato righe JSON. In questi file, ogni riga è un oggetto JSON completo che contiene un documento di formazione e le etichette associate. L'esempio seguente è un file manifest aumentato che addestra un identificatore di entità a rilevare le professioni delle persone menzionate nel testo:


{"source":"Diego Ramirez is an engineer in the high tech industry.","NamedEntityRecognitionDemo":{"annotations":{"entities":[{"endOffset":13,"startOffset":0,"label":"ENGINEER"}],"labels":[{"label":"ENGINEER"}]}},"NamedEntityRecognitionDemo-metadata":{"entities":[{"confidence":0.92}],"job-name":"labeling-job/namedentityrecognitiondemo","type":"groundtruth/text-span","creation-date":"2020-05-14T21:45:27.175903","human-annotated":"yes"}}
{"source":"J Doe is a judge on the Washington Supreme Court.","NamedEntityRecognitionDemo":{"annotations":{"entities":[{"endOffset":5,"startOffset":0,"label":"JUDGE"}],"labels":[{"label":"JUDGE"}]}},"NamedEntityRecognitionDemo-metadata":{"entities":[{"confidence":0.72}],"job-name":"labeling-job/namedentityrecognitiondemo","type":"groundtruth/text-span","creation-date":"2020-05-14T21:45:27.174910","human-annotated":"yes"}}
{"source":"Our latest new employee, Mateo Jackson, has been a manager in the industry for 4 years.","NamedEntityRecognitionDemo":{"annotations":{"entities":[{"endOffset":38,"startOffset":26,"label":"MANAGER"}],"labels":[{"label":"MANAGER"}]}},"NamedEntityRecognitionDemo-metadata":{"entities":[{"confidence":0.91}],"job-name":"labeling-job/namedentityrecognitiondemo","type":"groundtruth/text-span","creation-date":"2020-05-14T21:45:27.174035","human-annotated":"yes"}}

Ogni riga di questo file JSON lines è un oggetto JSON completo, in cui gli attributi includono il testo del documento, le annotazioni e altri metadati di Ground Truth. L'esempio seguente è un singolo oggetto JSON nel file manifest aumentato, ma è formattato per garantire la leggibilità:


{
  "source": "Diego Ramirez is an engineer in the high tech industry.",
  "NamedEntityRecognitionDemo": {
    "annotations": {
      "entities": [
        {
          "endOffset": 13,
          "startOffset": 0,
          "label": "ENGINEER"
        }
      ],
      "labels": [
        {
          "label": "ENGINEER"
        }
      ]
    }
  },
  "NamedEntityRecognitionDemo-metadata": {
    "entities": [
      {
        "confidence": 0.92
      }
    ],
    "job-name": "labeling-job/namedentityrecognitiondemo",
    "type": "groundtruth/text-span",
    "creation-date": "2020-05-14T21:45:27.175903",
    "human-annotated": "yes"
  }
}

In questo esempio, l'sourceattributo fornisce il testo del documento di formazione e l'NamedEntityRecognitionDemoattributo fornisce le annotazioni per le entità nel testo. Il nome dell'NamedEntityRecognitionDemoattributo è arbitrario e fornisci un nome a tua scelta quando definisci il lavoro di etichettatura in Ground Truth.

In questo esempio, l'NamedEntityRecognitionDemoattributo è il nome dell'attributo label, che è l'attributo che fornisce le etichette che un operatore di Ground Truth assegna ai dati di addestramento. Quando fornisci i dati di addestramento ad Amazon Comprehend, devi specificare uno o più nomi di attributi dell'etichetta. Il numero di nomi di attributi che specifichi dipende dal fatto che il file manifesto aumentato sia l'output di un singolo processo di etichettatura o di un processo di etichettatura concatenato.

Se il file è l'output di un singolo processo di etichettatura, specifica il nome dell'attributo dell'etichetta singola che è stato utilizzato quando il lavoro è stato creato in Ground Truth.

Se il file è l'output di un lavoro di etichettatura concatenato, specifica il nome dell'attributo dell'etichetta per uno o più lavori della catena. Il nome di ogni attributo dell'etichetta fornisce le annotazioni di un singolo lavoro. È possibile specificare fino a 5 di questi attributi per i file manifest aumentati prodotti da processi di etichettatura concatenati.

In un file manifest aumentato, il nome dell'attributo label segue in genere la chiave. source Se il file è l'output di un lavoro concatenato, ci saranno più nomi di attributi di etichetta. Quando fornisci i tuoi dati di addestramento ad Amazon Comprehend, fornisci solo gli attributi che contengono annotazioni pertinenti per il tuo modello. Non specificare gli attributi che terminano con «-metadata».

Per ulteriori informazioni sui lavori di etichettatura concatenati e per esempi dell'output che producono, consulta Chaining Labeling Jobs nella Amazon Developer Guide. SageMaker

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Annotazioni in testo semplice

Annotazione di file PDF