As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Dados tabulares
Dados tabulares referem-se a dados que podem ser carregados em um quadro de dados bidimensional. No quadro, cada linha representa um registro e cada registro tem uma ou mais colunas. Os valores em cada célula do quadro de dados podem ser de tipos de dados numéricos, categóricos ou de texto.
Pré-requisitos do conjunto de dados tabular
Antes da análise, seu conjunto de dados deveria ter todas as etapas de pré-processamento necessárias já aplicadas. Isso inclui limpeza de dados ou engenharia de atributos.
Você pode fornecer um ou vários conjuntos de dados. Se você fornecer vários conjuntos de dados, use o seguinte para identificá-los na tarefa de processamento do SageMaker Clarify.
-
Use uma configuração ProcessingInputnomeada
dataset
ou de análisedataset_uri
para especificar o conjunto de dados principal. Para obter mais informações sobredataset_uri
, consulte a lista de parâmetros emArquivos de configuração de análise. -
Use o parâmetro
baseline
fornecido no arquivo de configuração da análise. O conjunto de dados de linha de base é necessário para SHAP análise. Para obter mais informações sobre o arquivo de configuração de análise, incluindo exemplos, consulteArquivos de configuração de análise.
A tabela a seguir lista os formatos de dados suportados, suas extensões de arquivo e MIME tipos.
Formato de dados | Extensão de arquivo | MIMEdigitar |
---|---|---|
CSV |
csv |
|
JSONLinhas |
jsonl |
|
JSON |
json |
|
Parquet |
parquet |
"application/x-parquet" |
As seções a seguir mostram exemplos de conjuntos de dados tabulares nos formatos CSV JSON Lines e Apache Parquet.
A tarefa de processamento do SageMaker Clarify foi projetada para carregar arquivos CSV de dados no dialeto csv.excel.\n
e \r
.
Para fins de compatibilidade, todos os arquivos de CSV dados fornecidos para a tarefa de processamento do SageMaker Clarify devem ser codificados em UTF -8.
Se o conjunto de dados não conter uma linha de cabeçalho, faça o seguinte:
-
Defina o rótulo de configuração da análise para indexar
0
. Isso significa que a primeira coluna é o rótulo de veracidade. -
Se o parâmetro
headers
estiver definido,label
defina o cabeçalho da coluna do rótulo para indicar a localização da coluna do rótulo. Todas as outras colunas são designadas como recursos.A seguir está um exemplo de um conjunto de dados que não contém uma linha de cabeçalho.
1,5,2.8,2.538,This is a good product 0,1,0.79,0.475,Bad shopping experience ...
Se seus dados contiverem uma linha de cabeçalho, defina o parâmetro label
para indexar 0
. Para indicar a localização da coluna do rótulo, use o cabeçalho do rótulo de veracidade Label
. Todas as outras colunas são designadas como recursos.
A seguir está um exemplo de um conjunto de dados que contém uma linha de cabeçalho.
Label,Rating,A12,A13,Comments 1,5,2.8,2.538,This is a good product 0,1,0.79,0.475,Bad shopping experience ...
JSONé um formato flexível para representar dados estruturados que contêm qualquer nível de complexidade. O suporte do SageMaker Clarify não JSON está restrito a nenhum formato específico e, portanto, permite formatos de dados mais flexíveis em comparação com conjuntos de dados nos formatos CSV ou JSON Linhas. Este guia mostra como definir uma configuração de análise para dados tabulares em JSON formato.
nota
Para garantir a compatibilidade, todos os arquivos de JSON dados fornecidos para a tarefa de processamento do SageMaker Clarify devem ser codificados em UTF -8.
Veja a seguir exemplos de dados de entrada com registros que contêm uma chave de nível superior, uma lista de recursos e um rótulo.
[ {"features":[1,5,2.8,2.538,"This is a good product"],"label":1}, {"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}, ... ]
Um exemplo de análise de configuração para o conjunto de dados de exemplo de entrada anterior deve definir os seguintes parâmetros:
-
O
label
parâmetro deve usar a JMESPathexpressão [*].label
para extrair o rótulo de verdade fundamental para cada registro no conjunto de dados. A JMESPath expressão deve produzir uma lista de rótulos em que o i the label corresponda ao i the record. -
O
features
parâmetro deve usar a JMESPath expressão[*].features
para extrair uma matriz de recursos para cada registro no conjunto de dados. A JMESPath expressão deve produzir uma matriz ou matriz 2D em que a i th linha contém os valores do recurso correspondente ao i th registro.A seguir estão exemplos de dados de entrada com registros que contêm uma chave de nível superior e uma chave aninhada que contém uma lista de recursos e rótulos para cada registro.
{ "data": [ {"features":[1,5,2.8,2.538,"This is a good product"],"label":1}}, {"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}} ] }
Um exemplo de análise de configuração para o conjunto de dados de exemplo de entrada anterior deve definir os seguintes parâmetros:
-
O
label
parâmetro usa a JMESPathexpressão data[*].label
para extrair o rótulo de verdade fundamental para cada registro no conjunto de dados. A JMESPath expressão deve produzir uma lista de rótulos em que o rótulo é para eles no registro. -
O
features
parâmetro usa a JMESPath expressãodata[*].features
para extrair a matriz de recursos para cada registro no conjunto de dados. A JMESPath expressão deve produzir uma matriz ou matriz 2D em que a i th linha contém os valores de recurso para o i th registro.
JSONLinhas é um formato de texto para representar dados estruturados em que cada linha é um JSON objeto válido. Atualmente, os trabalhos de processamento do SageMaker Clarify suportam apenas JSON linhas de formato SageMaker denso. Para estar em conformidade com o formato exigido, todos os recursos de um registro devem ser listados em uma única JSON matriz. Para obter mais informações sobre JSON linhas, consulteJSONLINESformato de solicitação.
nota
Todos os arquivos de dados do JSON Lines fornecidos para a tarefa de processamento do SageMaker Clarify devem ser codificados em UTF -8 para garantir a compatibilidade.
A seguir está um exemplo de como definir uma configuração de análise para um registro que contém uma chave de nível superior e uma lista de elementos.
{"features":[1,5,2.8,2.538,"This is a good product"],"label":1} {"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0} ...
A análise de configuração do exemplo de conjunto de dados anterior deve definir os parâmetros da seguinte forma:
-
Para indicar a localização do rótulo de verdade fundamental, o parâmetro
label
deve ser definido como a JMESPath expressãolabel
. -
Para indicar a localização da matriz de recursos, o parâmetro
features
deve ser definido como a JMESPath expressãofeatures
.
Veja a seguir um exemplo de como definir uma configuração de análise para um registro que contém uma chave de nível superior e uma chave aninhada que contém uma lista de elementos.
{"data":{"features":[1,5,2.8,2.538,"This is a good product"],"label":1}} {"data":{"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}} ...
A análise de configuração do exemplo de conjunto de dados anterior deve definir os parâmetros da seguinte forma:
-
O parâmetro
label
deve ser definido como a JMESPath expressãodata.label
para indicar a localização do rótulo de verdade fundamental. -
O parâmetro
features
deve ser definido como a JMESPath expressãodata.features
para indicar a localização da matriz de recursos.
O Parquet1
.
Como os trabalhos de processamento do SageMaker Clarify não oferecem suporte à solicitação do endpoint ou à resposta do endpoint no formato Parquet, você deve especificar o formato de dados da solicitação do endpoint definindo o parâmetro de configuração da análise content_type
para um formato compatível. Para obter mais informações, consulte content_type
em Arquivos de configuração de análise.
Os dados do Parquet devem ter nomes das colunas formatados como cadeias de caracteres. Use o parâmetro label
de configuração de análise para definir o nome da coluna do rótulo para indicar a localização dos rótulos verdadeiros fundamentais. Todas as outras colunas são designadas como recursos.