As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Criar um conjunto de dados
nota
Se você estiver importando conjuntos de dados maiores que 5 GB para o Amazon SageMaker Canvas, recomendamos que você use o recurso Data Wrangler no Canvas para criar um fluxo de dados. O Data Wrangler oferece suporte a recursos avançados de preparação de dados, como junção e concatenação de dados. Depois de criar um fluxo de dados, você pode exportar seu fluxo de dados como um conjunto de dados do Canvas e começar a criar um modelo. Para obter mais informações, consulte Exportar para criar um modelo.
As seções a seguir descrevem como criar um conjunto de dados no Amazon SageMaker Canvas. Para modelos personalizados, você pode criar conjuntos de dados para dados tabulares e de imagem. Para Ready-to-use modelos, você pode usar conjuntos de dados tabulares e de imagem, bem como conjuntos de dados de documentos. Escolha seu fluxo de trabalho com base nas informações a seguir:
-
Para dados categóricos, numéricos, de texto e de séries temporais, consulte Importar dados tabulares.
-
Para dados de imagem, consulte Importar dados de imagem.
-
Para obter dados do documento, consulteImportar dados do documento.
Um conjunto de dados pode consistir em vários arquivos. Por exemplo, você pode ter vários arquivos de dados de inventário em CSV formato. Você pode carregar esses arquivos juntos como um conjunto de dados, desde que o esquema (ou os nomes das colunas e os tipos de dados) dos arquivos correspondam.
O Canvas também é compatível com o gerenciamento de várias versões do seu conjunto de dados. Quando você cria um conjunto de dados, a primeira versão é rotulada como V1
. Você pode criar uma nova versão do seu conjunto de dados atualizando seu conjunto de dados. Você pode fazer uma atualização manual ou configurar um cronograma automatizado para atualizar seus conjuntos de dados com dados novos. Para obter mais informações, consulte Atualizar um conjunto de dados.
Ao importar seus dados para o Canvas, certifique-se de que eles atendam aos requisitos da tabela a seguir. As limitações são específicas para o tipo de modelo que você está criando.
Limite | Modelos de 2 categorias, 3 ou mais categorias, numéricos e de séries temporais | Modelos de previsão de texto | Modelos de previsão de imagem | *Documentar dados para modelos Ready-to-use |
---|---|---|---|---|
Tipos de arquivos compatíveis |
CSVe Parquet (upload local, Amazon S3 ou bancos de dados) JSON(bancos de dados) |
CSVe Parquet (upload local, Amazon S3 ou bancos de dados) JSON(bancos de dados) |
JPG, PNG |
PDF, JPG, PNG, TIFF |
Tamanho máximo do arquivo |
Upload local: 5 GB Fontes de dados: PBs |
Upload local: 5 GB Fontes de dados: PBs |
30 MB por imagem |
5 MB por documento |
Número máximo de arquivos que você pode carregar por vez |
30 |
30 |
N/D |
N/D |
Número máximo de colunas |
1.000 |
1.000 |
N/D |
N/D |
Número máximo de entradas (linhas, imagens ou documentos) para Criações rápidas |
N/D |
7.500 linhas |
5.000 imagens |
N/D |
Número máximo de entradas (linhas, imagens ou documentos) para Criações padrão |
N/D |
150.000 linhas |
180.000 imagens |
N/D |
Número mínimo de entradas (linhas) para Criações rápidas |
2 categorias: 500 linhas 3 ou mais categorias, numéricas, séries temporais: N/D |
N/D |
N/D |
N/D |
Número mínimo de entradas (linhas, imagens ou documentos) para Criações padrão |
250 linhas |
50 linhas |
50 imagens |
N/D |
Número mínimo de entradas (linhas ou imagens) por rótulo |
N/D |
25 linhas |
25 linhas |
N/D |
Número mínimo de rótulos |
2 categorias: 2 3 ou mais categorias: 3 Numérico, série temporal: N/D |
2 |
2 |
N/D |
Tamanho mínimo da amostra para amostragem aleatória |
500 |
N/D |
N/D |
N/D |
Tamanho máximo da amostra para amostragem aleatória |
200.000 |
N/D |
N/D |
N/D |
Número máximo de rótulos |
2 categorias: 2 3 ou mais categorias, numéricas, séries temporais: N/D |
1000 |
1000 |
N/D |
*Atualmente, os dados do documento são compatíveis apenas com Ready-to-use modelos que aceitam dados do documento. Você não pode criar um modelo personalizado com dados do documento.
Observe, também, as seguintes restrições:
-
Ao importar dados de um bucket do Amazon S3, certifique-se de que o nome do bucket do Amazon S3 não contenha um.
.
Se o nome do seu bucket contiver um.
, você poderá ter erros ao tentar importar dados para o Canvas. -
Para dados tabulares, o Canvas não permite selecionar qualquer arquivo com extensões diferentes de .csv, .parquet, .parq e .pqt para upload local e importação do Amazon S3. CSVos arquivos podem usar qualquer delimitador comum ou personalizado e não devem ter caracteres de nova linha, exceto quando denotam uma nova linha.
-
Para dados tabulares usando arquivos Parquet, observe o seguinte:
Os arquivos Parquet não podem incluir tipos complexos, como mapas e listas.
Os nomes das colunas dos arquivos do Parquet não podem conter espaços.
Se estiver usando compactação, os arquivos Parquet devem usar os tipos de compactação gzip ou snappy. Para obter mais informações sobre os tipos de compactação anteriores, consulte a documentação do gzip
e a documentação do snappy .
-
Para dados de imagem, se você tiver imagens não rotuladas, deverá rotulá-las antes de criar seu modelo. Para obter informações sobre como atribuir rótulos a imagens dentro do aplicativo Canvas, consulte Editar um conjunto de dados de imagem.
-
Se você configurar atualizações automáticas de conjuntos de dados ou configurações automáticas de previsão em lote, só poderá criar um total de 20 configurações em seu aplicativo Canvas. Para obter mais informações, consulte Como gerenciar automações.
Depois de importar um conjunto de dados, você pode visualizá-lo na página Conjuntos de dados a qualquer momento.
Importar dados tabulares
Com os conjuntos de dados tabulares, você pode criar modelos de previsão categóricos, numéricos, de séries temporais e de texto. Revise a tabela de limitações na seção anterior Importar um conjunto de dados para garantir que seus dados atendam aos requisitos de dados tabulares.
Use o procedimento a seguir para importar um conjunto de dados tabular para o Canvas:
-
Abra seu aplicativo SageMaker Canvas.
-
No painel de navegação à esquerda, selecione Conjunto de dados.
-
Escolha Importar dados.
-
No menu suspenso, escolha Tabular.
-
Na caixa de diálogo pop-up, no campo Nome do conjunto de dados, insira um nome para o conjunto de dados e escolha Criar.
-
Na página Criar conjunto de dados tabular, abra o menu suspenso Fonte de dados.
-
Selecione sua fonte de dados:
-
Para fazer upload de arquivos do seu computador, selecione Upload local.
-
Para importar dados de outra fonte, como um bucket do Amazon S3 ou um banco de dados Snowflake, pesquise sua fonte de dados na barra de pesquisa de fonte de dados. Em seguida, escolha o bloco para a fonte de dados desejada.
nota
Você só pode importar dados dos blocos que têm uma conexão ativa. Se você quiser se conectar a uma fonte de dados que não está disponível para você, entre em contato com o administrador. Se você for administrador, consulte Conectar-se à fonte de dados.
A captura de tela a seguir mostra o menu suspenso Fonte de dados.
-
-
(Opcional) Se você estiver se conectando a um banco de dados Amazon Redshift ou Snowflake pela primeira vez, uma caixa de diálogo será exibida para criar uma conexão. Preencha a caixa de diálogo com suas credenciais e escolha Criar conexão. Se você já tiver uma conexão, escolha sua conexão.
-
Na sua fonte de dados, selecione os arquivos a serem importados. Para upload e importação locais do Amazon S3, você pode selecionar arquivos. Somente para o Amazon S3, você também tem a opção de inserir diretamente o S3URI, o alias ou do seu bucket ou ponto de acesso ARN do S3 no campo Input S3 endpoint e, em seguida, escolher os arquivos a serem importados. Para fontes de banco de drag-and-drop dados, você pode usar tabelas de dados no painel de navegação esquerdo.
-
(Opcional) Para fontes de dados tabulares que suportam SQL consultas (como Amazon Redshift, Amazon Athena ou Snowflake), você pode escolher Editar SQL em para fazer consultas antes de importá-las. SQL
A captura de tela a seguir mostra a SQL visualização de edição de uma fonte de dados do Amazon Athena.
-
Escolha Visualizar conjunto de dados para visualizar seus dados antes de importá-los.
-
Nas configurações de importação, insira o nome do conjunto de dados ou use o nome padrão do conjunto de dados.
-
(Opcional) Para dados que você importa do Amazon S3, você vê as configurações avançadas e pode preencher os seguintes campos:
Ative a opção Usar primeira linha como cabeçalho se quiser usar a primeira linha do seu conjunto de dados como os nomes das colunas. Se você selecionou vários arquivos, isso se aplica a cada arquivo.
Se você estiver importando um CSV arquivo, no menu suspenso Codificação de arquivo (CSV), selecione a codificação do arquivo do conjunto de dados.
UTF-8
é o padrão.No menu suspenso Delimitador, selecione o delimitador que separa cada célula em seus dados. O delimitador padrão é.
,
Você também pode especificar um delimitador personalizado.Selecione Detecção de várias linhas se quiser que o Canvas analise manualmente todo o seu conjunto de dados para células de várias linhas. Por padrão, essa opção não está selecionada e o Canvas determina se deve ou não usar o suporte de várias linhas tirando uma amostra dos seus dados. No entanto, o Canvas pode não detectar nenhuma célula de várias linhas na amostra. Se você tiver células de várias linhas, recomendamos que você selecione a opção Detecção de várias linhas para forçar o Canvas a verificar todo o conjunto de dados em busca de células com várias linhas.
Quando você estiver pronto para importar seus dados, escolha Criar conjunto de dados.
Enquanto seu conjunto de dados está sendo importado para o Canvas, você pode ver seus conjuntos de dados listados na página Conjuntos de dados. Nesta página, você pode Visualizar os detalhes do conjunto de dados.
Quando o Status do seu conjunto de dados é exibido como Ready
, o Canvas importou seus dados com sucesso e você pode continuar com a construção de um modelo.
Se você tiver uma conexão com uma fonte de dados, como um banco de dados do Amazon Redshift ou um conector SaaS, poderá retornar a essa conexão. Para o Amazon Redshift e o Snowflake, você pode adicionar outra conexão criando outro conjunto de dados, retornando à página Importar dados e escolhendo o bloco da fonte de dados para essa conexão. No menu suspenso, você pode abrir a conexão anterior ou escolher Adicionar conexão.
nota
Para plataformas SaaS, você só pode ter uma conexão por fonte de dados.
Importar dados de imagem
Com conjuntos de dados de imagem, você pode criar modelos personalizados de previsão de imagem de rótulo único que preveem um rótulo para uma imagem. Revise as limitações na seção anterior Importar conjunto de dados para garantir que o conjunto de dados de imagem atenda aos requisitos de dados da imagem.
nota
Você só pode importar conjuntos de dados de imagens por upload de arquivo local ou de um bucket do Amazon S3. Além disso, para conjuntos de dados de imagens, você deve ter pelo menos 25 imagens por rótulo.
Use o procedimento a seguir para importar um conjunto de dados de imagem para o Canvas:
-
Abra seu aplicativo SageMaker Canvas.
-
No painel de navegação à esquerda, selecione Conjunto de dados.
-
Escolha Importar dados.
-
No menu suspenso, escolha Imagem.
-
Na caixa de diálogo pop-up, no campo Nome do conjunto de dados, insira um nome para o conjunto de dados e escolha Criar.
-
Na página Importar, abra o menu suspenso Fonte de dados.
-
Selecione sua fonte de dados. Para fazer upload de arquivos do seu computador, selecione Upload local. Para importar arquivos do Amazon S3, escolha Amazon S3.
-
No seu computador ou bucket do Amazon S3, selecione as imagens ou pastas de imagens que você deseja carregar.
-
Quando você estiver pronto para importar seus dados, escolha Importar dados.
Enquanto seu conjunto de dados está sendo importado para o Canvas, você pode ver seus conjuntos de dados listados na página Conjuntos de dados. Nesta página, você pode Visualizar os detalhes do conjunto de dados.
Quando o Status do seu conjunto de dados é exibido como Ready
, o Canvas importou seus dados com sucesso e você pode continuar com a construção de um modelo.
Ao criar seu modelo, você pode editar seu conjunto de dados de imagem e atribuir ou reatribuir rótulos, adicionar imagens ou excluir imagens do seu conjunto de dados. Para obter mais informações sobre como editar seu conjunto de dados de imagens, consulte Editar um conjunto de dados de imagem.
Importar dados do documento
Os Ready-to-use modelos para análise de despesas, análise de documentos de identidade, análise de documentos e consultas de documentos oferecem suporte aos dados do documento. Você não pode criar um modelo personalizado com dados do documento.
Com conjuntos de dados de documentos, você pode gerar previsões para modelos de análise de despesas, análise de documentos de identidade, análise de documentos e consultas Ready-to-use de documentos. Revise a tabela de limitações na seção Criar um conjunto de dados para garantir que o conjunto de dados do documento atenda aos requisitos de dados do documento.
nota
Você só pode importar conjuntos de dados de documentos por upload de arquivo local ou de um bucket do Amazon S3.
Use o procedimento a seguir para importar um conjunto de dados do documento para o Canvas:
-
Abra seu aplicativo SageMaker Canvas.
-
No painel de navegação à esquerda, selecione Conjunto de dados.
-
Escolha Importar dados.
-
No menu suspenso, escolha Documento.
-
Na caixa de diálogo pop-up, no campo Nome do conjunto de dados, insira um nome para o conjunto de dados e escolha Criar.
-
Na página Importar, abra o menu suspenso Fonte de dados.
-
Selecione sua fonte de dados. Para fazer upload de arquivos do seu computador, selecione Upload local. Para importar arquivos do Amazon S3, escolha Amazon S3.
-
No seu computador ou bucket do Amazon S3, selecione os arquivos de documentos que você deseja carregar.
-
Quando você estiver pronto para importar seus dados, escolha Importar dados.
Enquanto seu conjunto de dados está sendo importado para o Canvas, você pode ver seus conjuntos de dados listados na página Conjuntos de dados. Nesta página, você pode Visualizar os detalhes do conjunto de dados.
Quando o Status do seu conjunto de dados é exibido como Ready
, o Canvas importou seus dados com sucesso.
Na página Conjuntos de dados, você pode escolher seu conjunto de dados para visualizá-lo, o que mostra até os primeiros 100 documentos do seu conjunto de dados.
Visualizar os detalhes do conjunto de dados
Para cada um dos seus conjuntos de dados, você pode visualizar todos os arquivos em um conjunto de dados, o histórico de versões do conjunto de dados e todas as configurações de atualização automática do conjunto de dados. Na página Conjunto de dados, você também pode iniciar ações como Atualizar um conjunto de dados ou Como os modelos personalizados funcionam.
Para visualizar os detalhes de um conjunto de dados, faça o seguinte:
-
Abra o aplicativo SageMaker Canvas.
-
No painel de navegação à esquerda, selecione Conjunto de dados.
-
Na lista de conjuntos de dados, escolha seu conjunto de dados.
Na guia Dados, você pode ver uma prévia dos seus dados. Se você escolher Detalhes do conjunto de dados, poderá ver todos os arquivos que fazem parte do seu conjunto de dados. Escolha um arquivo para ver somente os dados desse arquivo na visualização. Para conjuntos de dados de imagens, a visualização mostra apenas as 100 primeiras imagens do seu conjunto de dados.
Na guia Histórico de versões, você pode ver uma lista de todas as versões do seu conjunto de dados. Uma nova versão é criada sempre que você atualiza um conjunto de dados. Para saber mais sobre como atualizar um conjunto de dados, consulte Atualizar um conjunto de dados. A captura de tela a seguir mostra a guia Histórico de versões no aplicativo Canvas.
Na guia Atualizações automáticas, você pode habilitar as atualizações automáticas para o conjunto de dados e definir uma configuração para atualizar seu conjunto de dados regularmente. Para saber mais sobre como configurar atualizações automáticas para um conjunto de dados, consulte Configurar atualizações automáticas para um conjunto de dados. A captura de tela a seguir mostra a guia Atualizações automáticas com as atualizações automáticas ativadas e uma lista dos trabalhos de atualização automática que foram executados no conjunto de dados.