Text mit Textklassifizierung kategorisieren (Single Label) - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Text mit Textklassifizierung kategorisieren (Single Label)

Verwenden Sie die Textklassifizierung, um Artikel und Text in vordefinierte Kategorien zu einzuteilen. Sie können beispielsweise die Textklassifizierung verwenden, um die in einer Rezension vermittelte Stimmung oder die Emotionen zu identifizieren, die einem Textabschnitt zugrunde liegen. Verwenden Sie die Textklassifizierung von Amazon SageMaker Ground Truth, damit Mitarbeiter Text in von Ihnen definierte Kategorien sortieren. Sie erstellen einen Auftrag zur Kennzeichnung der Textklassifizierung mithilfe des Ground Truth-Bereichs der SageMaker Amazon-Konsole oder des CreateLabelingJobVorgangs.

Wichtig

Wenn Sie manuell eine Eingabemanifestdatei erstellen, verwenden Sie "source", um den Text zu identifizieren, den Sie beschriften möchten. Weitere Informationen finden Sie unter Eingabedaten.

Erstellen einer Labeling-Aufgabe für die Textklassifizierung (Konsole)

Sie können den Anweisungen folgenErstellen eines Kennzeichnungsauftrags (Konsole), um zu erfahren, wie Sie einen Job zur Textklassifizierung in der SageMaker Konsole erstellen. Wählen Sie in Schritt 10 im Dropdown-Menü Aufgabenkategorie die Option Text und wählen Sie als Aufgabentyp Textklassifizierung (einzelne Beschriftung)“ aus.

Ground Truth stellt für die Labeling-Aufgaben eine Auftragnehmer-Benutzeroberfläche ähnlich der folgenden bereit. Wenn Sie die Labeling-Aufgabe mit der Konsole erstellen, müssen Sie Anweisungen bereitstellen, damit die Worker die Aufgabe ausführen können, und Kennzeichnungen, aus denen die Worker auswählen können.

Ein GIF, das zeigt, wie ein Job zur Textklassifizierung in der SageMaker Konsole erstellt wird.

Einen Labeling-Job zur Textklassifizierung erstellen (API)

Verwenden Sie den SageMaker API Vorgang, um einen Auftrag zur Textklassifizierung zur Textklassifizierung zu erstellenCreateLabelingJob. Dadurch API wird diese Operation für alle definiert AWS SDKs. Eine Liste der sprachspezifischen Sprachen, die für diesen Vorgang SDKs unterstützt werden, finden Sie im Abschnitt Siehe auch von. CreateLabelingJob

Befolgen Sie diese Anweisungen unter Erstellen eines Kennzeichnungsauftrags (API) und führen Sie die folgenden Schritte aus, während Sie Ihre Anforderung konfigurieren:

  • Vorannotierende Lambda-Features für die Vorannotierung für diesen Aufgabentyp enden mit PRE-TextMultiClass. Informationen zum Lambda-Pre-Annotation ARN für Ihre Region finden Sie unter. PreHumanTaskLambdaArn

  • Annotations-Konsolidierende Lambda-Features für die Annotationskonsolidierung für diesen Aufgabentyp enden mit ACS-TextMultiClass. Informationen zum Lambda zur Annotationskonsolidierung ARN für Ihre Region finden Sie unter. AnnotationConsolidationLambdaArn

Im Folgenden finden Sie ein Beispiel für eine AWS Python-Anfrage SDK (Boto3) zur Erstellung eines Labeling-Jobs in der Region USA Ost (Nord-Virginia). Alle Parameter in Rot sollten durch Ihre Spezifikationen und Ressourcen ersetzt werden.

response = client.create_labeling_job( LabelingJobName='example-text-classification-labeling-job, LabelAttributeName='label', InputConfig={ 'DataSource': { 'S3DataSource': { 'ManifestS3Uri': 's3://bucket/path/manifest-with-input-data.json' } }, 'DataAttributes': { 'ContentClassifiers': [ 'FreeOfPersonallyIdentifiableInformation'|'FreeOfAdultContent', ] } }, OutputConfig={ 'S3OutputPath': 's3://bucket/path/file-to-store-output-data', 'KmsKeyId': 'string' }, RoleArn='arn:aws:iam::*:role/*, LabelCategoryConfigS3Uri='s3://bucket/path/label-categories.json', StoppingConditions={ 'MaxHumanLabeledObjectCount': 123, 'MaxPercentageOfInputDatasetLabeled': 123 }, HumanTaskConfig={ 'WorkteamArn': 'arn:aws:sagemaker:region:*:workteam/private-crowd/*', 'UiConfig': { 'UiTemplateS3Uri': 's3://bucket/path/worker-task-template.html' }, 'PreHumanTaskLambdaArn': 'arn:aws:lambda:us-east-1:432418664414:function:PRE-TextMultiClass, 'TaskKeywords': [ Text classification', ], 'TaskTitle': Text classification task', 'TaskDescription': 'Carefully read and classify this text using the categories provided.', 'NumberOfHumanWorkersPerDataObject': 123, 'TaskTimeLimitInSeconds': 123, 'TaskAvailabilityLifetimeInSeconds': 123, 'MaxConcurrentTaskCount': 123, 'AnnotationConsolidationConfig': { 'AnnotationConsolidationLambdaArn': 'arn:aws:lambda:us-east-1:432418664414:function:ACS-TextMultiClass' }, Tags=[ { 'Key': 'string', 'Value': 'string' }, ] )

Bereitstellen einer Vorlage für Labeling-Aufgaben für die Textklassifizierung

Wenn Sie einen Label-Job mit dem erstellenAPI, müssen Sie unter eine Worker-Aufgabenvorlage angeben. UiTemplateS3Uri Kopieren und ändern Sie die folgende Vorlage. Ändern Sie nur short-instructions, full-instructions und header.

Laden Sie diese Vorlage auf S3 hoch und stellen Sie die S3-Datei URI für diese Datei unter bereitUiTemplateS3Uri.

<script src="https://assets.crowd.aws/crowd-html-elements.js"></script> <crowd-form> <crowd-classifier name="crowd-classifier" categories="{{ task.input.labels | to_json | escape }}" header="classify text" > <classification-target style="white-space: pre-wrap"> {{ task.input.taskObject }} </classification-target> <full-instructions header="Classifier instructions"> <ol><li><strong>Read</strong> the text carefully.</li> <li><strong>Read</strong> the examples to understand more about the options.</li> <li><strong>Choose</strong> the appropriate labels that best suit the text.</li></ol> </full-instructions> <short-instructions> <p>Enter description of the labels that workers have to choose from</p> <p><br></p><p><br></p><p>Add examples to help workers understand the label</p> <p><br></p><p><br></p><p><br></p><p><br></p><p><br></p> </short-instructions> </crowd-classifier> </crowd-form>

Textklassifizierungs-Ausgabedaten

Sobald Sie einen Label-Job zur Textklassifizierung erstellt haben, befinden sich Ihre Ausgabedaten in dem Amazon S3 S3-Bucket, der im S3OutputPath Parameter angegeben ist, wenn Sie das API oder im Feld Speicherort des Ausgabe-Datensatzes im Bereich Auftragsübersicht der Konsole verwenden.

Weitere Informationen zu der von Ground Truth generierten Ausgabemanifestdatei und zur Dateistruktur, die zum Speichern Ihrer Ausgabedaten verwendet, finden Sie unter Ausgabedaten des Jobs beschriften.

Ein Beispiel für Ausgabemanifestdateien für eine Labeling-Aufgabe für die Textklassifizierung mit Mehrfachkennzeichnung finden Sie unter Ausgabe von Klassifizierungsaufträgen.