Arquivos de anotação em PDF - Amazon Comprehend

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Arquivos de anotação em PDF

Para anotações em PDF, você usa o SageMaker Ground Truth para criar um conjunto de dados rotulado em um arquivo de manifesto aumentado. O Ground Truth é um serviço de rotulagem de dados que ajuda você (ou uma força de trabalho que você emprega) a criar conjuntos de dados de treinamento para modelos de machine learning. O Amazon Comprehend aceita arquivos de manifesto aumentados como dados de treinamento para modelos personalizados. Você pode fornecer esses arquivos ao criar um reconhecedor de entidades personalizado usando o console CreateEntityRecognizerdo Amazon Comprehend ou a ação da API.

Você pode usar o tipo de tarefa integrada Ground Truth, o Reconhecimento de entidade nomeada, para criar um trabalho de rotulagem para que os trabalhadores identifiquem entidades no texto. Para saber mais, consulte Reconhecimento de entidades nomeadas no Amazon SageMaker Developer Guide. Para saber mais sobre o Amazon SageMaker Ground Truth, consulte Usar o Amazon SageMaker Ground Truth para rotular dados.

nota

Usando o Ground Truth, você pode definir rótulos sobrepostos (texto que você associa a mais de um rótulo). No entanto, o reconhecimento de entidades do Amazon Comprehend não suporta rótulos sobrepostos.

Os arquivos de manifesto aumentado estão no formato de linhas JSON. Nesses arquivos, cada linha é um objeto JSON completo que contém um documento de treinamento e seus rótulos associados. O exemplo a seguir é um arquivo de manifesto aumentado que treina um reconhecedor de entidades para detectar as profissões de indivíduos mencionados no texto:

{"source":"Diego Ramirez is an engineer in the high tech industry.","NamedEntityRecognitionDemo":{"annotations":{"entities":[{"endOffset":13,"startOffset":0,"label":"ENGINEER"}],"labels":[{"label":"ENGINEER"}]}},"NamedEntityRecognitionDemo-metadata":{"entities":[{"confidence":0.92}],"job-name":"labeling-job/namedentityrecognitiondemo","type":"groundtruth/text-span","creation-date":"2020-05-14T21:45:27.175903","human-annotated":"yes"}} {"source":"J Doe is a judge on the Washington Supreme Court.","NamedEntityRecognitionDemo":{"annotations":{"entities":[{"endOffset":5,"startOffset":0,"label":"JUDGE"}],"labels":[{"label":"JUDGE"}]}},"NamedEntityRecognitionDemo-metadata":{"entities":[{"confidence":0.72}],"job-name":"labeling-job/namedentityrecognitiondemo","type":"groundtruth/text-span","creation-date":"2020-05-14T21:45:27.174910","human-annotated":"yes"}} {"source":"Our latest new employee, Mateo Jackson, has been a manager in the industry for 4 years.","NamedEntityRecognitionDemo":{"annotations":{"entities":[{"endOffset":38,"startOffset":26,"label":"MANAGER"}],"labels":[{"label":"MANAGER"}]}},"NamedEntityRecognitionDemo-metadata":{"entities":[{"confidence":0.91}],"job-name":"labeling-job/namedentityrecognitiondemo","type":"groundtruth/text-span","creation-date":"2020-05-14T21:45:27.174035","human-annotated":"yes"}}

Cada linha nesse arquivo de linhas JSON é um objeto JSON completo, no qual os atributos incluem o texto do documento, as anotações e outros metadados do Ground Truth. O exemplo a seguir é um único objeto JSON no arquivo de manifesto aumentado, mas está formatado para facilitar a leitura:

{ "source": "Diego Ramirez is an engineer in the high tech industry.", "NamedEntityRecognitionDemo": { "annotations": { "entities": [ { "endOffset": 13, "startOffset": 0, "label": "ENGINEER" } ], "labels": [ { "label": "ENGINEER" } ] } }, "NamedEntityRecognitionDemo-metadata": { "entities": [ { "confidence": 0.92 } ], "job-name": "labeling-job/namedentityrecognitiondemo", "type": "groundtruth/text-span", "creation-date": "2020-05-14T21:45:27.175903", "human-annotated": "yes" } }

Neste exemplo, o atributo source fornece o texto do documento de treinamento, e o atributo NamedEntityRecognitionDemo fornece as anotações para as entidades no texto. O nome do atributo NamedEntityRecognitionDemo é arbitrário e você fornece um nome de sua escolha ao definir o trabalho de rotulagem no Ground Truth.

Neste exemplo, o atributo NamedEntityRecognitionDemo é o nome de atributo de rótulo, que é o atributo que fornece os rótulos que um funcionário do Ground Truth atribui aos dados de treinamento. Ao fornecer seus dados de treinamento ao Amazon Comprehend, você deve especificar um ou mais nomes de atributos de rótulo. O número de nomes de atributos que você especifica dependerá de o arquivo de manifesto aumentado ser a saída de um único trabalho de rotulagem ou de um trabalho de rotulagem em cadeia.

Se o arquivo for a saída de um único trabalho de rotulagem, especifique o nome de atributo de rótulo único que foi usado quando o trabalho foi criado no Ground Truth.

Se seu arquivo for a saída de um trabalho de rotulagem em cadeia, especifique o nome de atributo de rótulo etiqueta para um ou mais trabalhos na cadeia. Cada nome de atributo de rótulo fornece as anotações de uma tarefa individual. Você pode especificar até 5 desses atributos para arquivos de manifesto aumentado que são produzidos por trabalhos de rotulagem em cadeia.

Em um arquivo de manifesto aumentado, o nome de atributo de rótulo geralmente segue a chave source. Se o arquivo for a saída de um trabalho em cadeia, haverá vários nomes de atributos de rótulo. Ao fornecer seus dados de treinamento ao Amazon Comprehend, forneça somente os atributos que contenham anotações relevantes para o seu modelo. Não especifique os atributos que terminem com “-metadata”.

Para obter mais informações sobre trabalhos de etiquetagem em cadeia e exemplos dos resultados que eles produzem, consulte Encadeamento de trabalhos de etiquetagem no Amazon SageMaker Developer Guide.