Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Para extraer información de un texto no estructurado y clasificarla en categorías predefinidas, utilice una tarea de etiquetado de reconocimiento de entidades denominadas (NER) de Amazon SageMaker Ground Truth. Tradicionalmente, NER implica analizar datos de texto para localizar frases nominales, llamadas entidades nombradas y clasificar cada una con una etiqueta, como "persona", "organización" o "marca". Puede ampliar esta tarea para etiquetar extensiones más largas de texto y clasificar esas secuencias con las etiquetas predefinidas que especifique. Puedes crear un trabajo de etiquetado y reconocimiento de entidades con nombre utilizando la sección Ground Truth de la consola Amazon SageMaker AI o la CreateLabelingJob
operación.
Cuando se le asigna un trabajo de etiquetado de reconocimiento de entidades con nombre, los trabajadores aplican las etiquetas a palabras o frases específicas dentro de un bloque de texto más grande. Escogen una etiqueta y, a continuación, la aplican con el cursor para resaltar la parte del texto a la que se aplica la etiqueta. La herramienta de reconocimiento de entidades con nombre de Ground Truth admite anotaciones superpuestas, la selección de etiquetas en contexto y la selección de varias etiquetas para resaltar un solo detalle. Además, los trabajadores pueden utilizar sus teclados para seleccionar etiquetas rápidamente.
importante
Si crea manualmente un archivo de manifiesto de entrada, utilice "source"
para identificar el texto que quiere etiquetar. Para obtener más información, consulte Datos de entrada.
Crear un trabajo de etiquetado de reconocimiento de entidades con nombre (consola)
Puede seguir las instrucciones Crear un trabajo de etiquetado (consola) para aprender a crear un trabajo de etiquetado de reconocimiento de entidades con nombre en la consola de SageMaker IA. En el paso 10, elija Texto en el menú desplegable Categoría de tareas y elija Reconocimiento de entidades con nombre como tipo de tarea.
Ground Truth proporciona una interfaz de usuario del trabajador similar a la siguiente para las tareas de etiquetado. Al crear el trabajo de etiquetado con la consola, se especifican instrucciones para ayudar a los trabajadores a completar el trabajo y las etiquetas que los trabajadores pueden elegir.
![Gif que muestra cómo crear un trabajo de etiquetado de reconocimiento de entidades con nombre en la consola de SageMaker IA.](images/sms/gifs/nertool.gif)
Crear un trabajo de etiquetado de reconocimiento de entidades con nombre (API)
Para crear un trabajo de etiquetado de reconocimiento de entidades con nombre asignado, mediante la operación de SageMaker APICreateLabelingJob
. Esta API define esta operación para todos AWS SDKs. Para ver una lista de los idiomas específicos SDKs compatibles con esta operación, consulte la sección Vea también de. CreateLabelingJob
Siga las instrucciones de Crear un trabajo de etiquetado (API) y haga lo siguiente mientras configura su solicitud:
-
Las funciones de Lambda de preanotación para este tipo de tareas terminan con
PRE-NamedEntityRecognition
. Para encontrar el ARN Lambda previo a la anotación correspondiente a su región, consulte. PreHumanTaskLambdaArn -
Las funciones de Lambda de consolidación de anotaciones para este tipo de tareas terminan con
ACS-NamedEntityRecognition
. Para encontrar el ARN Lambda de consolidación de anotaciones de su región, consulte. AnnotationConsolidationLambdaArn -
Debe proporcionar el siguiente ARN para
HumanTaskUiArn
:arn:aws:sagemaker:
aws-region
:394669845002:human-task-ui/NamedEntityRecognitionSustituya
por la región de AWS en la que vaya a crear el trabajo de etiquetado. Por ejemplo, utiliceaws-region
us-west-1
si crea un trabajo de etiquetado en Oeste de EE. UU. (Norte de California). -
Proporcione instrucciones para trabajadores en el archivo de configuración de categorías de etiquetas mediante el parámetro
instructions
. Puede utilizar una cadena o lenguaje de marcado HTML en los camposshortInstruction
yfullInstruction
. Para obtener más información, consulta Proporcionar instrucciones para trabajadores en el archivo de configuración de categorías de etiquetas."instructions": {"shortInstruction":"<h1>Add header</h1><p>Add Instructions</p>", "fullInstruction":"<p>Add additional instructions.</p>"}
A continuación se ofrece un ejemplo de solicitud del SDK de AWS Python (Boto3)
response = client.create_labeling_job( LabelingJobName=
'example-ner-labeling-job'
, LabelAttributeName='label'
, InputConfig={ 'DataSource': { 'S3DataSource': { 'ManifestS3Uri':'s3://bucket/path/manifest-with-input-data.json'
} }, 'DataAttributes': { 'ContentClassifiers': ['FreeOfPersonallyIdentifiableInformation'|'FreeOfAdultContent'
, ] } }, OutputConfig={ 'S3OutputPath':'s3://bucket/path/file-to-store-output-data'
, 'KmsKeyId':'string'
}, RoleArn='arn:aws:iam::*:role/*'
, LabelCategoryConfigS3Uri='s3://bucket/path/label-categories.json'
, StoppingConditions={ 'MaxHumanLabeledObjectCount':123
, 'MaxPercentageOfInputDatasetLabeled':123
}, HumanTaskConfig={ 'WorkteamArn':'arn:aws:sagemaker:region:*:workteam/private-crowd/*'
, 'UiConfig': { 'HumanTaskUiArn': 'arn:aws:sagemaker:us-east-1
:394669845002:human-task-ui/NamedEntityRecognition' }, 'PreHumanTaskLambdaArn': 'arn:aws:lambda:us-east-1:432418664414
:function:PRE-NamedEntityRecognition', 'TaskKeywords': ['Named entity Recognition'
, ], 'TaskTitle':'Named entity Recognition task'
, 'TaskDescription':'Apply the labels provided to specific words or phrases within the larger text block.'
, 'NumberOfHumanWorkersPerDataObject':1
, 'TaskTimeLimitInSeconds':28800
, 'TaskAvailabilityLifetimeInSeconds':864000
, 'MaxConcurrentTaskCount':1000
, 'AnnotationConsolidationConfig': { 'AnnotationConsolidationLambdaArn': 'arn:aws:lambda:us-east-1:432418664414
:function:ACS-NamedEntityRecognition' }, Tags=[ { 'Key':'string'
, 'Value':'string'
}, ] )
Proporcionar instrucciones para trabajadores en el archivo de configuración de categorías de etiquetas
Debe proporcionar instrucciones para trabajadores en el archivo de configuración de categorías de etiquetas que identifique mediante el parámetro LabelCategoryConfigS3Uri
en CreateLabelingJob
. Puede utilizar estas instrucciones para proporcionar detalles sobre la tarea que desea que realicen los trabajadores y ayudarlos a utilizar la herramienta de manera eficiente.
Las instrucciones cortas y largas se proporcionan utilizando shortInstruction
y fullInstruction
en el parámetro instructions
, respectivamente. Para obtener más información acerca de estos tipos de instrucciones, consulteCreación de páginas de instrucciones.
A continuación se muestra un ejemplo de un archivo de configuración de categorías de etiquetas con instrucciones que se pueden utilizar para un trabajo de etiquetado de reconocimiento de entidades con nombre.
{
"document-version": "2018-11-28",
"labels": [
{
"label": "label1",
"shortDisplayName": "L1"
},
{
"label": "label2",
"shortDisplayName": "L2"
},
{
"label": "label3",
"shortDisplayName": "L3"
},
{
"label": "label4",
"shortDisplayName": "L4"
},
{
"label": "label5",
"shortDisplayName": "L5"
}
],
"instructions": {
"shortInstruction": "<p>Enter description of the labels that workers have
to choose from</p><br><p>Add examples to help workers understand the label</p>",
"fullInstruction": "<ol>
<li><strong>Read</strong> the text carefully.</li>
<li><strong>Highlight</strong> words, phrases, or sections of the text.</li>
<li><strong>Choose</strong> the label that best matches what you have highlighted.</li>
<li>To <strong>change</strong> a label, choose highlighted text and select a new label.</li>
<li>To <strong>remove</strong> a label from highlighted text, choose the X next to the
abbreviated label name on the highlighted text.</li>
<li>You can select all of a previously highlighted text, but not a portion of it.</li>
</ol>"
}
}
Datos de salida de reconocimiento de entidades con nombre
Después de crear un trabajo de etiquetado de reconocimiento de entidades con nombre, los datos de salida se ubicarán en el bucket de Amazon S3 especificado en el parámetro S3OutputPath
al utilizar la API o en el campo Ubicación del conjunto de datos de salida de la sección Información general del trabajo de la consola.
Para obtener más información sobre el archivo de manifiesto de salida generado por Ground Truth y la estructura de archivos que Ground Truth utiliza para almacenar los datos de salida, consulte Etiquetado de los datos de salida del trabajo.