Explorar seus dados usando a análise - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Explorar seus dados usando a análise

nota

Você só pode usar a análise do SageMaker Canvas para modelos criados em conjuntos de dados tabulares. Modelos de previsão de texto de várias categorias também são excluídos.

Com a análise no Amazon SageMaker Canvas, você pode explorar seu conjunto de dados e obter informações sobre todas as suas variáveis antes de criar um modelo. Você pode determinar as relações entre os atributos em seu conjunto de dados usando matrizes de correlação. Você pode usar essa técnica para resumir seu conjunto de dados em uma matriz que mostra as correlações entre dois ou mais valores. Isso ajuda você a identificar e visualizar padrões em um determinado conjunto de dados para análise de dados avançada.

A matriz mostra a correlação entre cada atributo como positiva, negativa ou neutra. Você pode incluir atributos que tenham uma alta correlação entre si ao criar seu modelo. Atributos que têm pouca ou nenhuma correlação podem ser irrelevantes para seu modelo, e você pode descartar esses atributos ao criar seu modelo.

Para começar com matrizes de correlação no SageMaker Canvas, consulte a seção a seguir.

Criar uma matriz de correlação

Você pode criar uma matriz de correlação ao se preparar para criar um modelo na guia Construir do aplicativo SageMaker Canvas.

Para obter instruções sobre como começar a criar um modelo, consulte Criar um modelo.

Depois de começar a preparar um modelo no aplicativo SageMaker Canvas, faça o seguinte:

  1. Na guia Criar, escolha Visualizador de dados.

  2. Em seguida, Análise.

  3. Escolha Matriz de correlação.

Você deve obter uma visualização semelhante à captura de tela a seguir, que mostra até 15 colunas do conjunto de dados organizadas em uma matriz de correlação.

Captura de tela de uma matriz de correlação no aplicativo Canvas.

Depois de criar a matriz de correlação, você poderá personalizá-la fazendo o seguinte:

1. Escolha suas colunas

Em Colunas, você pode selecionar as colunas que deseja incluir na matriz. Você pode comparar até 15 colunas do seu conjunto de dados.

nota

Você pode usar tipos de coluna numérica, categórica ou binária para uma matriz de correlação. A matriz de correlação não é compatível com tipos de coluna de dados de data e hora nem de texto.

Para adicionar ou remover colunas da matriz de correlação, marque e desmarque as colunas no painel Colunas. Você também pode arrastar e soltar colunas do painel diretamente na matriz. Se seu conjunto de dados tiver muitas colunas, você poderá pesquisar as colunas desejadas na barra de Pesquisar colunas.

Para filtrar as colunas por tipo de dados, escolha a lista suspensa e selecione Tudo, Numérico ou Categórico. Selecionar Tudo mostra todas as colunas do seu conjunto de dados, enquanto os filtros Numérico e Categórico mostram apenas as colunas numéricas ou categóricas no seu conjunto de dados. Observe que os tipos de colunas binárias estão incluídos nos filtros numéricos ou categóricos.

Para obter as melhores informações de dados, inclua sua coluna de destino na matriz de correlação. Quando você inclui sua coluna de destino na matriz de correlação, ela aparece como o último atributo na matriz com um símbolo de destino.

2. Escolha seu tipo de correlação

SageMaker O Canvas suporta diferentes tipos de correlação ou métodos para calcular a correlação entre suas colunas.

Para alterar o tipo de correlação, use o filtro Colunas mencionado na seção anterior para filtrar o tipo de coluna e as colunas desejados. Você deve ver o Tipo de correlação no painel lateral. Para comparações numéricas, você tem a opção de selecionar Pearson ou Spearman. Para comparações categóricas, o tipo de correlação é definido como MI. Para comparações categóricas e mistas, o tipo de correlação é definido como Spearman e MI.

Para matrizes que comparam somente colunas numéricas, o tipo de correlação é Pearson ou Spearman. A medida Pearson avalia a relação linear entre duas variáveis contínuas. A medida Spearman avalia a relação monotônica entre duas variáveis. Tanto para Pearson quanto para Spearman, a escala de correlação varia de -1 a 1, com cada extremidade da escala indicando uma correlação perfeita (uma relação direta de 1:1) e 0 indicando nenhuma correlação. Você pode selecionar Pearson se seus dados tiverem mais relações lineares (conforme revelado por uma visualização do gráfico de dispersão). Se seus dados não forem lineares ou contiverem uma mistura de relações lineares e monotônicas, você pode selecionar Spearman.

Para matrizes que comparam somente colunas categóricas, o tipo de correlação é definido como Classificação de Informações Mútuas (MI). O valor da MI é uma medida da dependência mútua entre duas variáveis aleatórias. A medida da MI está em uma escala de 0 a 1, com 0 indicando nenhuma correlação e 1 indicando uma correlação perfeita.

Para matrizes que comparam uma mistura de colunas numéricas e categóricas, o tipo de correlação Spearman & MI é uma combinação dos tipos de correlação Spearman e MI. Para correlações entre duas colunas numéricas, a matriz mostra o valor de Spearman. Para correlações entre uma coluna numérica e categórica ou duas colunas categóricas, a matriz mostra o valor MI.

Por fim, lembre-se de que a correlação não indica necessariamente causalidade. Um valor de correlação forte indica apenas que há um relacionamento entre duas variáveis, mas as variáveis podem não ter um relacionamento causal. Analise cuidadosamente suas colunas de interesse para evitar distorções ao compilar seu modelo.

3. Filtrar suas correlações

No painel lateral, você pode usar o recurso Filtrar correlações para filtrar o intervalo de valores de correlação que você deseja incluir na matriz. Por exemplo, se você quiser filtrar por recursos que têm apenas correlação positiva ou neutra, você pode configurar o Min como 0 e o Max como 1 (os valores válidos são -1 a 1).

Para comparações de Spearman e Pearson, você pode definir o intervalo de correlações de filtro em qualquer ponto entre de -1 a 1, com 0 significando que não há correlação. -1 e 1 significam que as variáveis têm uma forte correlação negativa ou positiva, respectivamente.

Para comparações de MI, o intervalo de correlação vai apenas de 0 a 1, com 0 significando que não há correlação e 1 significando que as variáveis têm uma forte correlação, positiva ou negativa.

Cada recurso tem uma correlação perfeita (1) consigo mesmo. Portanto, você pode notar que a linha superior da matriz de correlação é sempre 1. Se quiser excluir esses valores, você pode usar o filtro para configurar o Max menor que 1.

Tenha em mente que, se sua matriz comparar um mix de colunas numéricas e categóricas e usar o tipo de correlação Spearman & MI, as correlações categóricas x numéricas e categóricas x categóricas (que usam a medida MI) estão em uma escala de 0 a 1, enquanto as correlações numéricas x numéricas (que usam a medida de Spearman) estão em uma escala de -1 a 1. Revise cuidadosamente suas correlações de interesse para garantir que você conheça o tipo de correlação que está sendo usado para calcular cada valor.

4. Escolha o método de visualização

No painel lateral, você pode usar Visualizar por para alterar o método de visualização da matriz. Escolha o método de visualização numérica para mostrar o valor da correlação (Pearson, Spearman ou MI) ou escolha o método de visualização de tamanho para visualizar a correlação com pontos de tamanhos e cores diferentes. Se você escolher Tamanho, poderá passar o mouse sobre um ponto específico na matriz para ver o valor real da correlação.

5. Escolha uma paleta de cores

No painel lateral, você pode usar a Seleção de cores para alterar a paleta de cores usada para a escala de correlação negativa para positiva na matriz. Selecione uma das paletas de cores alternativas para alterar as cores usadas na matriz.