As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Crie uma tarefa do AutoML para classificação de texto usando o API
As instruções a seguir mostram como criar um trabalho do Amazon SageMaker Autopilot como um experimento piloto para tipos de problemas de classificação de texto usando o SageMaker APIReference.
nota
Tarefas como classificação de texto e imagem, previsão de séries temporais e ajuste fino de grandes modelos de linguagem estão disponíveis exclusivamente por meio da versão 2 do AutoML. REST API Se sua linguagem preferida for Python, você pode se referir diretamente ao AWS SDK for Python (Boto3) MLV2
Os usuários que preferem a conveniência de uma interface de usuário podem usar o Amazon SageMaker Canvas para acessar modelos pré-treinados e modelos básicos de IA generativos, ou criar modelos personalizados para textos específicos, classificação de imagens, necessidades de previsão ou IA generativa.
Você pode criar um experimento de classificação de texto do Autopilot programaticamente chamando a CreateAutoMLJobV2
APIação em qualquer idioma suportado pelo Amazon SageMaker Autopilot ou pelo. AWS CLI
Para obter informações sobre como essa API ação se traduz em uma função no idioma de sua escolha, consulte a seção Consulte também CreateAutoMLJobV2
e escolha umaSDK. Por exemplo, para usuários do Python, veja a sintaxe completa da solicitação de create_auto_ml_job_v2
in AWS SDK for Python (Boto3).
Veja a seguir uma coleção de parâmetros de solicitação de entrada obrigatórios e opcionais para a CreateAutoMLJobV2
API ação usada na classificação de texto.
Parâmetros necessários
Quando ligar para CreateAutoMLJobV2
, a fim de criar um experimento de Autopilot para classificação de texto, forneça os seguintes valores:
-
Um
AutoMLJobName
para especificar o nome do seu trabalho. -
Pelo menos uma
AutoMLJobChannel
inAutoMLJobInputDataConfig
para especificar sua fonte de dados. -
Um
AutoMLProblemTypeConfig
do tipoTextClassificationJobConfig
. -
Um
OutputDataConfig
para especificar o caminho de saída do Amazon S3 para armazenar os artefatos do seu trabalho do AutoML. -
A
RoleArn
para especificar ARN a função usada para acessar seus dados.
Todos os outros parâmetros são opcionais.
Parâmetros opcionais
As seções a seguir fornecem detalhes de alguns parâmetros opcionais que você pode passar para o seu trabalho AutoML de classificação de texto.
Você pode fornecer seu próprio conjunto de dados da validação e taxa de divisão de dados personalizada, ou deixar o Autopilot dividir o conjunto de dados automaticamente.
Cada AutoMLJobChannel
objeto (consulte o parâmetro obrigatório A utoMLJobInputDataConfig) tem umChannelType
, que pode ser definido como um training
ou validation
valores que especificam como os dados devem ser usados ao criar um modelo de aprendizado de máquina.
Pelo menos uma fonte de dados deve ser fornecida e no máximo duas fontes de dados são permitidas: uma para dados de treinamento e outra para dados de validação. A forma como você divide os dados em conjuntos de dados de treinamento e validação depende de você ter uma ou duas fontes de dados.
A forma como você divide os dados em conjuntos de dados de treinamento e validação depende de você ter uma ou duas fontes de dados.
-
Se você tiver apenas uma fonte de dados, a será
ChannelType
definida comotraining
padrão e deverá ter esse valor.-
Se o valor
ValidationFraction
emAutoMLDataSplitConfig
não estiver definido, 0,2 (20%) dos dados dessa fonte serão usados para a validação por padrão. -
Se
ValidationFraction
for definido como um valor entre 0 e 1, o conjunto de dados será dividido com base no valor especificado, em que o valor especifica a fração do conjunto de dados usada para validação.
-
-
Se você tiver duas fontes de dados, a
ChannelType
de um dos objetosAutoMLJobChannel
deverá ser definida comotraining
, o valor padrão. AChannelType
da outra fonte de dados deve ser definida comovalidation
. As duas fontes de dados devem ter o mesmo formato, CSV ou Parquet, e o mesmo esquema. Nesse caso, você não deve definir o valor para oValidationFraction
porque todos os dados de cada fonte são usados para treinamento ou validação. Definir esse valor causa um erro.
Para habilitar a implantação automática para o melhor candidato a modelo de um trabalho do AutoML, inclua um ModelDeployConfig
na solicitação de trabalho do AutoML. Isso permitirá a implantação do melhor modelo em um SageMaker endpoint. Abaixo estão as configurações disponíveis para personalização.
-
Para permitir que o Autopilot gere o nome do endpoint, defina
AutoGenerateEndpointName
comoTrue
. -
Para fornecer seu próprio nome para o endpoint, defina
AutoGenerateEndpointName to
.False
and provide a name of your choice in EndpointName