Realizar análise exploratória de dados (EDA) - Amazon SageMaker

Realizar análise exploratória de dados (EDA)

O Wrangler inclui análises integradas que ajudam você a gerar visualizações e análises de dados com apenas alguns cliques. Você também pode criar análises personalizadas usando seu próprio código.

Você adiciona uma análise a um quadro de dados selecionando uma etapa em seu fluxo de dados e, em seguida, escolhendo Adicionar análise. Para acessar uma análise que você criou, selecione a etapa que contém a análise e selecione a análise.

As análises são geradas usando uma amostra de até 200.000 linhas do seu conjunto de dados, e você pode configurar o tamanho da amostra. Para obter mais informações sobre como alterar o tamanho da amostra do fluxo de dados, consulteEdite a configuração de amostragem do fluxo de dados.

nota

As análises são otimizadas para dados com 1000 colunas ou menos. Você pode sentir alguma latência ao gerar análises de dados com colunas adicionais.

Você pode adicionar a seguinte análise a um quadro de dados:

  • Visualizações de dados, incluindo histogramas e gráficos de dispersão.

  • Um resumo rápido do seu conjunto de dados, incluindo número de entradas, valores mínimos e máximos (para dados numéricos) e categorias mais e menos frequentes (para dados categóricos).

  • Um modelo rápido do conjunto de dados, que pode ser usado para gerar uma pontuação de importância para cada atributo.

  • Um relatório de vazamento de destino, que você pode usar para determinar se um ou mais atributos estão fortemente correlacionadas com seu atributo de destino.

  • Uma visualização personalizada usando seu próprio código.

Use as seguintes seções para saber mais sobre essas opções:

Obtenha insights sobre dados e qualidade dos dados

Use o Relatório de qualidade dos dados e insights para realizar uma análise dos dados que você importou para o Data Wrangler. Recomendamos que você crie o relatório após importar o conjunto de dados. Você pode usar o relatório para ajudar você a limpar e processar seus dados. Ele fornece informações como o número de valores ausentes e o número de valores atípicos. Caso tenha problemas com seus dados, como vazamento ou desequilíbrio de destino, o relatório de insights pode chamar sua atenção para esses problemas.

Use o procedimento a seguir para criar um relatório de qualidade dos dados e insights. Ele pressupõe que você já tenha importado um conjunto de dados para o fluxo do Data Wrangler.

Para criar um relatório de qualidade dos dados e insights
  1. Escolha o ícone de reticências ao lado de um nó no seu fluxo do Data Wrangler.

  2. Selecione Obter insights de dados.

  3. Para Tipo de análise, selecione Relatório de qualidade de dados e insights.

  4. Em Nome da análise, especifique um nome para o relatório de insights.

  5. Para Tipo de problema, especifique Regressão ou Classificação.

  6. Para a Coluna de destino, especifique a coluna de destino.

  7. Para Tamanho dos dados, especifique uma das seguintes opções:

    • Conjunto de dados amostrado: usa a amostra interativa do seu fluxo de dados, que pode conter até 200.000 linhas do seu conjunto de dados. Para obter informações sobre como editar o tamanho da amostra, consulteEdite a configuração de amostragem do fluxo de dados.

    • Conjunto de dados completo: usa o conjunto de dados completo da sua fonte de dados para criar o relatório.

    nota

    A criação de um relatório de Insights e Qualidade de Dados no conjunto de dados completo usa um trabalho de processamento do Amazon SageMaker Processing. Um trabalho de processamento do SageMaker provisiona os recursos computacionais adicionais necessários para obter insights sobre todos os seus dados. Para obter mais informações sobre os trabalhos de processamento do SageMaker, consulte Workloads de transformação de dados com o SageMaker Processing.

  8. Escolha Criar.

Os tópicos a seguir mostram as seções do relatório:

Você pode fazer download do relatório ou visualizá-lo online. Para fazer download do relatório, escolha o botão de download no canto superior direito da tela.

Resumo

O relatório de insights tem um breve resumo dos dados que inclui informações gerais, como valores ausentes, valores inválidos, tipos de atributos, contagens de valores atípicos e muito mais. Ele também pode incluir avisos de severidade alta que apontam para prováveis problemas com os dados. Recomendamos que você investigue os avisos.

Coluna de destino

Quando você cria o relatório de Qualidade dos Dados e Insights, o Data Wrangler oferece a opção de selecionar uma coluna de destino. Uma coluna de destino é uma coluna que você está tentando prever. Quando você escolhe uma coluna de destino, o Data Wrangler cria automaticamente uma análise da coluna de destino. Ele também classifica os atributos na ordem de seu poder preditivo. Ao selecionar uma coluna de destino, você deve especificar se está tentando resolver um problema de regressão ou classificação.

Para classificação, o Data Wrangler mostra uma tabela e um histograma das classes mais comuns. Uma classe é uma categoria. Ele também apresenta observações, ou linhas, com um valor de destino ausente ou inválido.

Para regressão, o Data Wrangler mostra um histograma de todos os valores na coluna de destino. Ele também apresenta observações, ou linhas, com um valor de destino ausente, inválido ou atípico.

Modelo rápido

O modelo rápido fornece uma estimativa da qualidade prevista esperada de um modelo que você treina em seus dados.

O Data Wrangler divide seus dados em folds de treinamento e validação. Ele usa 80% das amostras para treinamento e 20% dos valores para validação. Para classificação, a amostra é dividida estratificada. Para uma divisão estratificada, cada partição de dados tem a mesma proporção de rótulos. Para problemas de classificação, é importante ter a mesma proporção de rótulos entre os folds de treinamento e classificação. O Data Wrangler treina o modelo XGBoost com os hiperparâmetros padrão. Ele aplica a interrupção antecipada dos dados de validação e executa o mínimo de pré-processamento de atributos.

Para modelos de classificação, o Data Wrangler retorna um resumo do modelo e uma matriz de confusão.

Para saber mais sobre as informações que o resumo do modelo de classificação retorna, consulteDefinições.

Uma matriz de confusão fornece as seguintes informações:

  • O número de vezes que o rótulo previsto corresponde ao rótulo verdadeiro.

  • O número de vezes que o rótulo previsto não corresponde ao rótulo verdadeiro.

O rótulo verdadeiro representa uma observação real em seus dados. Por exemplo, se você está usando um modelo para detectar transações fraudulentas, o rótulo verdadeiro representa uma transação que é realmente fraudulenta ou não fraudulenta. O rótulo previsto representa o rótulo que seu modelo atribui aos dados.

Você pode usar a matriz de confusão para ver o quão bem o modelo prevê a presença ou a ausência de uma condição. Se você está prevendo transações fraudulentas, pode usar a matriz de confusão para ter uma ideia da sensibilidade e da especificidade do modelo. A sensibilidade se refere à capacidade do modelo de detectar transações fraudulentas. A especificidade se refere à capacidade do modelo de evitar a detecção de transações não fraudulentas como fraudulentas.

Resumo de atributos

Quando você especifica uma coluna de destino, o Data Wrangler ordena os atributos de acordo com seu poder de predição. O poder de predição é medido nos dados após serem divididos em 80% de treinamento e 20% de validação. O Data Wrangler ajusta um modelo para cada atributo separadamente no fold de treinamento. Ele aplica o mínimo de pré-processamento de atributos e mede o desempenho da predição nos dados de validação.

Ele normaliza as pontuações para o intervalo [0,1]. Pontuações de predição mais altas indicam colunas mais úteis para prever o destino sozinhas. Pontuações mais baixas apontam para colunas não preditivas da coluna de destino.

É incomum que uma coluna que não seja preditiva por si só seja preditiva quando usada em conjunto com outras colunas. Você pode usar com confiança as pontuações de predição para determinar se um atributo em seu conjunto de dados é preditivo.

Uma pontuação baixa geralmente indica que o atributo é redundante. Uma pontuação de 1 indica habilidades preditivas perfeitas, o que geralmente indica vazamento do destino. O vazamento do destino geralmente ocorre quando o conjunto de dados contém uma coluna que não está disponível no momento da predição. Por exemplo, pode ser uma duplicata da coluna de destino.

Amostras

O Data Wrangler fornece informações sobre se suas amostras são anômalas ou se há duplicatas em seu conjunto de dados.

O Data Wrangler detecta amostras anômalas usando o algoritmo de floresta de isolamento. A floresta de isolamento associa uma pontuação de anomalias a cada amostra (linha) do conjunto de dados. Pontuações de anomalias baixas indicam amostras anômalas. Pontuações altas estão associadas a amostras não anômalas. Amostras com pontuação de anomalias negativas geralmente são consideradas anômalas, e amostras com pontuação de anomalias positivas são consideradas não anômalas.

Ao analisar uma amostra que pode ser anômala, recomendamos que você preste atenção aos valores incomuns. Por exemplo, você pode ter valores anômalos resultantes de erros na coleta e no processamento dos dados. A seguir está um exemplo das amostras mais anômalas de acordo com a implementação do algoritmo de floresta de isolamento do Data Wrangler. Recomendamos usar o conhecimento do domínio e a lógica de negócios ao examinar as amostras anômalas.

O Data Wrangler detecta linhas duplicadas e calcula a proporção de linhas duplicadas em seus dados. Algumas fontes de dados podem incluir duplicatas válidas. Outras fontes de dados podem ter duplicatas que apontam para problemas na coleta de dados. Amostras duplicadas resultantes de uma coleta de dados incorreta podem interferir nos processos de machine learning que dependem da divisão dos dados em folds de treinamento e validação independentes.

A seguir estão os elementos do relatório de insights que podem ser impactados por amostras duplicadas:

  • Modelo rápido

  • Estimativa do poder de predição

  • Ajuste automático de hiperparâmetros

Você pode remover amostras duplicadas do conjunto de dados usando a transformação Descartar duplicata em Gerenciar linhas. O Data Wrangler mostra as linhas duplicadas com mais frequência.

Definições

Estas são as definições dos termos técnicos usados no relatório de insights de dados.

Feature types

A seguir estão as definições para cada um dos tipos de atributos:

  • Numérico: Os valores numéricos podem ser flutuantes ou inteiros, como idade ou renda. Os modelos de machine learning pressupõem que os valores numéricos são ordenados e uma distância é definida sobre eles. Por exemplo, 3 está mais próximo de 4 do que de 10 e 3 < 4 < 10.

  • Categórico: as entradas da coluna pertencem a um conjunto de valores exclusivos, que geralmente é muito menor do que o número de entradas na coluna. Por exemplo, uma coluna de comprimento 100 pode conter os valores exclusivos Dog, Cat e Mouse. Os valores poderiam ser numéricos, de texto ou uma combinação de ambos. Horse, House, 8, Love e 3.1 seriam todos valores válidos e poderiam ser encontrados na mesma coluna categórica. O modelo de machine learning não pressupõe ordem ou distância nos valores dos atributos categóricos, ao contrário dos atributos numéricos, mesmo quando todos os valores são números.

  • Binário: Os atributos binários são um tipo especial de atributo categórico no qual a cardinalidade do conjunto de valores exclusivos é 2.

  • Texto: Uma coluna de texto contém muitos valores exclusivos não numéricos. Em casos extremos, todos os elementos da coluna são exclusivos. Em um caso extremo, não há duas entradas iguais.

  • Datetime: Uma coluna de datetime contém informações sobre a data ou a hora. Ela pode ter informações de data e hora.

Feature statistics

A seguir estão as definições para cada uma das estatísticas dos atributos:

  • Poder de predição: O poder de predição mede o quão útil a coluna na predição do destino.

  • Valores atípicos (em colunas numéricas): O Data Wrangler detecta valores atípicos usando duas estatísticas que são robustas aos valores atípicos: mediana e desvio padrão robusto (RSTD). O RSTD é derivado recortando os valores dos atributos no intervalo [5 percentil, 95 percentil] e calculando o desvio padrão do vetor recortado. Todos os valores maiores que a mediana + 5 * RSTD ou menores que a mediana - 5 * RSTD são considerados atípicos.

  • Distorção (em colunas numéricas): A distorção mede a simetria da distribuição e é definida como o terceiro momento da distribuição dividido pela terceira potência do desvio padrão. A assimetria da distribuição normal ou de qualquer outra distribuição simétrica é zero. Valores positivos implicam que a cauda direita da distribuição é maior que a cauda esquerda. Valores positivos implicam que a cauda direita da distribuição é maior que a cauda direita. Como regra geral, uma distribuição é considerada distorcida quando o valor absoluto da distorção é maior que 3.

  • Curtose (em colunas numéricas): A curtose de Pearson mede o peso da cauda da distribuição. Ela é definida como o quarto momento da distribuição dividido pelo quadrado do segundo momento. A curtose da distribuição normal é 3. Valores de curtose menores que 3 implicam que a distribuição está concentrada em torno da média e as caudas são mais claras do que as caudas da distribuição normal. Valores de curtose maiores que 3 implicam caudas mais pesadas ou valores atípicos.

  • Valores ausentes: Objetos semelhantes a Nulo, strings vazias e compostas somente por espaços em branco são considerados ausentes.

  • Valores válidos para atributos numéricos ou destino de regressão: Todos os valores que você pode converter em flutuantes finitos são válidos. Valores ausentes não são válidos.

  • Valores válidos para atributos categóricos, binários ou de texto, ou para destino de classificação: Todos os valores que não são ausentes são válidos.

  • Atributos de datetime: Todos os valores que você pode converter em um objeto de datetime são válidos. Valores ausentes não são válidos.

  • Valores inválidos: Valores que são ausentes ou que você não pode converter corretamente. Por exemplo, em uma coluna numérica, você não pode converter a string "six" ou um valor nulo.

Quick model metrics for regression

A seguir estão as definições para as métricas de modelo rápido:

  • R2 ou coeficiente de determinação: R2 é a proporção da variação no destino prevista pelo modelo. R2 está no intervalo de [-infty, 1]. 1 é a pontuação do modelo que prevê o destino perfeitamente, e 0 é a pontuação do modelo trivial que sempre prevê a média de destino.

  • MSE ou erro quadrático médio: MSE está no intervalo [0, infty]. 0 é a pontuação do modelo que prevê o destino perfeitamente.

  • MAE ou erro absoluto médio: MAE está no intervalo [0, infty] em que 0 é a pontuação do modelo que prevê o destino perfeitamente.

  • RMSE ou raiz do erro quadrático médio: RMSE está no intervalo [0, infty]. em que 0 é a pontuação do modelo que prevê o destino perfeitamente.

  • Erro máximo: O valor absoluto máximo do erro no conjunto de dados. O erro máximo está no intervalo [0, infty]. 0 é a pontuação do modelo que prevê o destino perfeitamente.

  • Erro absoluto médio: O erro absoluto médio está no intervalo [0, infty]. 0 é a pontuação do modelo que prevê o destino perfeitamente.

Quick model metrics for classification

A seguir estão as definições para as métricas de modelo rápido:

  • Precisão: Precisão é a proporção de amostras que são previstas com precisão. A precisão está no intervalo [0, 1]. 0 é a pontuação do modelo que prevê todas as amostras incorretamente, e 1 é a pontuação do modelo perfeito.

  • Precisão balanceada: A precisão balanceada é a proporção de amostras que são previstas com precisão quando os pesos da classe são ajustados para equilibrar os dados. Todas as classes têm a mesma importância, independentemente da frequência. A precisão balanceada está no intervalo [0, 1]. 0 é a pontuação do modelo que prevê todas as amostras incorretamente, e 1 é a pontuação do modelo perfeito.

  • AUC (classificação binária): Essa é a área sob a curva característica de operação do receptor. AUC está no intervalo [0, 1] em que um modelo aleatório retorna uma pontuação de 0,5, e o modelo perfeito retorna uma pontuação de 1.

  • AUC (OVR): Para classificação multiclasse, esta é a área sob a curva característica de operação do receptor calculada separadamente para cada rótulo usando um versus rest. O Data Wrangler relata a média das áreas. AUC está no intervalo [0, 1] em que um modelo aleatório retorna uma pontuação de 0,5, e o modelo perfeito retorna uma pontuação de 1.

  • Precisão: A precisão é definida para uma classe específica. Precisão é a fração de positivos verdadeiros de todas as instâncias que o modelo classificou como essa classe. A precisão está no intervalo [0, 1]. 1 é a pontuação do modelo que não tem falsos-positivos para a classe. Para classificação binária, o Data Wrangler relata a precisão da classe positiva.

  • Recall: O recall é definido para uma classe específica. Recall é a fração das instâncias de classe relevantes que são recuperadas com sucesso. Recall está no intervalo [0, 1]. 1 é a pontuação do modelo que classifica todas as instâncias da classe corretamente. Para classificação binária, o Data Wrangler relata o recall da classe positiva.

  • F1: F1 é definido para uma classe específica. Ele é a média harmônica da precisão e do recall. F1 está no intervalo [0, 1]. 1 é a pontuação do modelo perfeito. Para classificação binária, o Data Wrangler relata o F1 da classe com valores positivos.

Textual patterns

Padrões descrevem o formato textual de uma string usando um formato fácil de ler. Estes são exemplos de padrões textuais:

  • {digits:4-7}” descreve uma sequência de dígitos com um comprimento entre 4 e 7.

  • {alnum:5}” descreve uma string alfanumérica com um comprimento de exatamente 5.

O Data Wrangler infere os padrões examinando amostras de strings não vazias de seus dados. Ele pode descrever muitos dos padrões comumente usados. A confiança expressa como uma porcentagem indica qual é a estimativa da correspondência dos dados ao padrão. Usando o padrão textual, é possível ver quais linhas de seus dados precisam ser corrigidas ou descartadas.

A seguir, descrevemos os padrões que o Data Wrangler pode reconhecer:

Padrão Formato textual

{alnum}

Strings alfanuméricas

{any}

Qualquer string de caracteres de palavras

{digits}

Uma sequência de dígitos

{lower}

Uma palavra minúscula

{mixed}

Uma palavra com maiúsculas e minúsculas

{name}

Uma palavra que começa com uma letra maiúscula

{upper}

Uma palavra maiúscula

{whitespace}

Caracteres de espaço em branco

Um caractere de palavra é um sublinhado ou um caractere que pode aparecer em uma palavra em qualquer idioma. Por exemplo, as strings 'Hello_word' e 'écoute' ambas consistem em caracteres de palavras. “H” e “é” são exemplos de caracteres de palavras.

Relatório de desvio

O SageMaker Canvas fornece o relatório de desvio no Data Wrangler para ajudar a descobrir possíveis desvios em seus dados. O relatório de desvio analisa a relação entre a coluna de destino (rótulo) e uma coluna que você acredita que possa conter desvio (variável facetária). Por exemplo, se você está tentando prever a conversão de clientes, a sua faceta pode ser a idade do cliente. O relatório de desvio pode ajudá-lo a determinar se seus dados são tendenciosos para uma determinada faixa etária.

Para gerar um relatório de desvio no Canvas, faça o seguinte:

  1. Em seu fluxo de dados no Data Wrangler, escolha o ícone Mais opções ( Vertical ellipsis icon representing a menu or more options. ) ao lado de um nó no fluxo.

  2. No menu de contexto, escolha Obter insights de dados.

  3. O painel lateral Criar análise é aberto. No menu suspenso Tipo de análise, selecione Relatório de desvio.

  4. No campo Nome da análise, insira um nome para o relatório de desvio.

  5. No menu suspenso Selecione a coluna que seu modelo prevê (alvo), selecione sua coluna de destino.

  6. Para Sua coluna prevista é um valor ou limite?, selecione Valor se sua coluna de destino tiver valores categóricos ou Limite se tiver valores numéricos.

  7. Em Valor previsto (ou Limite previsto, dependendo da sua seleção na etapa anterior), insira o valor ou valores da coluna alvo que correspondem a um resultado positivo. Por exemplo, ao prever a conversão do cliente, seu valor pode ser yes para indicar que um cliente foi convertido.

  8. No menu suspenso Selecionar a coluna a ser analisada quanto ao desvio, selecione a coluna que você acredita que possa conter desvio, também conhecida como variável facetária.

  9. Para Sua coluna é um valor ou limite?, selecione Valor se a variável facetária tiver valores categóricos ou Limite se tiver valores numéricos.

  10. Em Valor(es) da coluna a serem analisados quanto ao desvio (ou Limite da coluna para analisar o desvio, dependendo da sua seleção na etapa anterior), insira o valor ou os valores que você deseja analisar quanto ao possível desvio. Por exemplo, se você estiver verificando desvio contra clientes acima de uma certa idade, use o início dessa faixa etária como seu limite.

  11. Em Escolher métricas de desvio, selecione as métricas de desvio que você gostaria de incluir em seu relatório de desvio. Passe o mouse sobre os ícones de informações para obter mais informações sobre cada métrica.

  12. (Opcional) Quando solicitado com a opção Você gostaria de analisar métricas adicionais?, selecione Sim para visualizar e incluir mais métricas de desvio.

  13. Quando estiver pronto para criar o relatório de desvio, selecione Adicionar.

Depois de gerado, o relatório fornece uma visão geral das métricas de desvio que você selecionou. Você pode visualizar o relatório de desvio a qualquer momento na guia Análises do seu fluxo de dados.

Histograma

Use histogramas para ver as contagens dos valores de um atributo específico. Você pode inspecionar as relações entre os atributos usando a opção Colorir por.

Você pode usar Facetar por atributo para criar histogramas de uma coluna, para cada valor em outra coluna.

Gráfico de dispersão

Use o atributo Gráfico de dispersão para inspecionar a relação entre os atributos. Para criar um gráfico de dispersão, selecione um atributo para plotar no eixo X e no eixo Y. Ambas as colunas devem ser colunas de tipo numérico.

Você pode colorir gráficos de dispersão usando uma coluna adicional.

Além disso, você pode facetar gráficos de dispersão por atributos.

Resumo da tabela

Use a análise de Resumo da tabela para resumir rapidamente seus dados.

Para colunas com dados numéricos, incluindo dados de log e flutuantes, um resumo da tabela relata o número de entradas (contagem), mínimo (mínimo), máximo (máximo), média e desvio padrão (stddev) para cada coluna.

Para colunas com dados não numéricos, incluindo colunas com dados de string, booleanos ou de data/hora, um resumo da tabela relata o número de entradas (contagem), o valor menos frequente (mínimo) e o valor mais frequente (máximo).

Modelo rápido

Use a visualização do Modelo rápido para avaliar rapidamente seus dados e produzir pontuações de importância para cada atributo. Uma pontuação de importância de um atributo indica a utilidade de um atributo na previsão de um rótulo de destino. A pontuação de importância do atributo está entre [0, 1] e um número maior indica que o atributo é mais importante para todo o conjunto de dados. Na parte superior do gráfico rápido do modelo, há uma pontuação do modelo. Um problema de classificação mostra uma pontuação na F1. Um problema de regressão tem uma pontuação de erro quadrático médio (MSE).

Ao criar um gráfico de modelo rápido, você seleciona um conjunto de dados que deseja avaliar e um rótulo de destino com o qual deseja comparar a importância do atributo. O Data Wrangler faz o seguinte:

  • Infere os tipos de dados para o rótulo de destino e cada atributo no conjunto de dados selecionado.

  • Determina o tipo de problema. Com base no número de valores distintos na coluna do rótulo, o Data Wrangler determina se esse é um tipo de problema de regressão ou classificação. O Data Wrangler define um limite categórico para 100. Se houver mais de 100 valores distintos na coluna do rótulo, o Data Wrangler o classifica como um problema de regressão; caso contrário, ele é classificado como um problema de classificação.

  • Pré-processa os atributos e os dados de rótulos para treinamento. O algoritmo usado necessita codificar os atributos em tipo vetorial e rótulos de codificação em tipo duplo.

  • Treina um algoritmo de floresta aleatório com 70% dos dados. O RandomForestRegressor do Spark é usado para treinar um modelo para problemas de regressão. O RandomForestClassifier é usado para treinar um modelo para problemas de classificação.

  • Avalia um modelo de floresta aleatória com os 30% restantes dos dados. O Data Wrangler avalia modelos de classificação usando uma pontuação F1 e avalia modelos de regressão usando uma pontuação MSE.

  • Calcula a importância do atributo para cada atributo usando o método de importância de Gini.

Vazamento do destino

O vazamento de destino ocorre quando há dados em um conjunto de dados de treinamento de machine learning que estão fortemente correlacionados com o rótulo de destino, mas não estão disponíveis em dados do mundo real. Por exemplo, você pode ter uma coluna em seu conjunto de dados que serve como proxy para a coluna que você deseja prever com seu modelo.

Ao usar a análise Vazamento do destino, você especifica o seguinte:

  • Destino: esse é o atributo sobre o qual você deseja que seu modelo de ML seja capaz de fazer predições.

  • Tipo de problema: esse é o tipo de problema de ML no qual você está processando. O tipo de problema pode ser classificação ou regressão.

  • (Opcional) Máximo de atributos: esse é o número máximo de atributos a serem apresentados na visualização, que mostra os atributos classificados de acordo com o risco de serem vazamentos de destino.

Para classificação, a análise de vazamento destino usa a área sob o atributo de operação do receptor ou a curva AUC - ROC para cada coluna, até os Recursos máximos. Para regressão, ele usa um coeficiente de determinação ou métrica R2.

A curva AUC-ROC fornece uma métrica preditiva, calculada individualmente para cada coluna usando validação cruzada, em uma amostra de aproximadamente até 1000 linhas. Uma pontuação de 1 indica habilidades preditivas perfeitas, o que geralmente indica vazamento do destino. Uma pontuação de 0,5 ou menos indica que as informações na coluna não poderiam fornecer, por si só, nenhuma informação útil para prever o destino. Embora seja possível que uma coluna seja pouco informativa por si só, mas seja útil na previsão do destino quando usada em conjunto com outros atributos, uma pontuação baixa pode indicar que o atributo é redundante.

Multicolinearidade

A multicolinearidade é uma circunstância em que duas ou mais variáveis preditoras estão relacionadas entre si. As variáveis preditoras são os atributos do seu conjunto de dados que você está usando para prever uma variável destino. Quando você tem multicolinearidade, as variáveis preditoras não são apenas preditivas da variável destino, mas também preditivas umas das outras.

Você pode usar o Fator de inflação de variância (VIF), a Análise de componentes principais (PCA) ou a seleção de atributos Lasso como medidas para a multicolinearidade em seus dados. Para obter mais informações, consulte.

Variance Inflation Factor (VIF)

O Fator de inflação de variância (VIF) é uma medida de colinearidade entre pares de variáveis. O Data Wrangler retorna uma pontuação VIF como uma medida de quão estreitamente as variáveis estão relacionadas entre si. Uma pontuação de VIF é um número positivo que é maior ou igual a 1.

Uma pontuação de 1 significa que a variável não está correlacionada com as outras variáveis. Pontuações maiores que 1 indicam maior correlação.

Teoricamente, você pode ter uma pontuação de VIF com um valor infinito. O Data Wrangler reduz as pontuações mais altas para 50. Se você tiver uma pontuação de VIF maior que 50, o Data Wrangler define a pontuação como 50.

Você pode usar as seguintes diretrizes para interpretar suas pontuações de VIF:

  • Uma pontuação de VIF menor ou igual a 5 indica que as variáveis estão moderadamente correlacionadas com as outras variáveis.

  • Uma pontuação de VIF menor ou igual a 5 indica que as variáveis estão moderadamente correlacionadas com as outras variáveis.

Principle Component Analysis (PCA)

A Análise de Componentes Principais (PCA) mede a variação dos dados em diferentes direções no espaço de atributos. O espaço de atributos consiste em todas as variáveis preditoras que você usa para prever a variável destino em seu conjunto de dados.

Por exemplo, se você está tentando prever quem sobreviveu no RMS Titanic depois que ele atingiu um iceberg, seu espaço especial pode incluir a idade, o gênero e a tarifa que os passageiros pagaram.

A partir do espaço de atributos, o PCA gera uma lista ordenada de variações. Essas variações também são conhecidas como valores singulares. Os valores na lista de variâncias são maiores ou iguais a 0. Podemos usá-los para determinar quanta multicolinearidade existe em nossos dados.

Quando os números são aproximadamente uniformes, os dados têm pouquíssimas instâncias de multicolinearidade. Quando há muita variabilidade entre os valores, temos muitas instâncias de multicolinearidade. Antes de executar o PCA, o Data Wrangler normaliza cada atributo para ter uma média de 0 e um desvio padrão de 1.

nota

O PCA nessa circunstância também pode ser chamado de Decomposição de Valor Singular (SVD).

Lasso feature selection

A seleção de atributos do Lasso usa a técnica de regularização L1 para incluir apenas os atributos mais preditivos em seu conjunto de dados.

Tanto para classificação quanto para regressão, a técnica de regularização gera um coeficiente para cada atributo. O valor absoluto do coeficiente fornece uma pontuação de importância para o atributo. Uma pontuação de importância mais alta indica que é mais preditiva da variável-destino. Um método comum de seleção de atributos é utilizar todas os atributos que têm um coeficiente lasso não nulo.

Detectar anomalias em dados de séries temporais

Você pode usar a visualização de detecção de anomalias para ver valores discrepantes em seus dados de séries temporais. Para entender o que determina uma anomalia, você precisa entender que decompomos a série temporal em um termo previsto e um termo de erro. Tratamos a sazonalidade e a tendência da série temporal como o termo previsto. Tratamos os resíduos como o termo de erro.

Para o termo de erro, você especifica um limite como o número de desvios padrão que o resíduo pode afastar da média para que seja considerado uma anomalia. Por exemplo, é possível especificar um limite como sendo 3 desvios padrão. Qualquer resíduo maior que 3 desvios padrão da média é uma anomalia.

Você pode usar o procedimento a seguir para realizar uma análise de detecção de anomalias.

  1. Abra seu fluxo de dados do Data Wrangler.

  2. No seu fluxo de dados, em Tipos de dados, escolha o + e selecione Adicionar análise.

  3. Para Tipo de análise, escolha Séries temporais.

  4. Para Visualização, escolha Detecção de anomalias.

  5. Em Limite de anomalia, escolha o limite em que um valor é considerado uma anomalia.

  6. Escolha Visualizar para gerar uma visualização prévia da análise.

  7. Escolha Adicionar para adicionar a transformação ao fluxo de dados do Data Wrangler.

Decomposição de tendências sazonais em dados de séries temporais

Você pode determinar se há sazonalidade em seus dados de séries temporais usando a visualização de Decomposição de tendências sazonais. Usamos o método STL (Decomposição de tendência sazonal usando LOESS) para realizar a decomposição. Decompomos a série temporal em seus componentes sazonais, de tendência e residuais. A tendência reflete a progressão a longo prazo da série. O componente sazonal é um sinal que se repete em um período de tempo. Depois de remover a tendência e os componentes sazonais da série temporal, você tem o resíduo.

Você pode usar o procedimento a seguir para realizar uma análise de decomposição de tendência sazonal.

  1. Abra seu fluxo de dados do Data Wrangler.

  2. No seu fluxo de dados, em Tipos de dados, escolha o + e selecione Adicionar análise.

  3. Para Tipo de análise, escolha Séries temporais.

  4. Para Visualização, escolha Decomposição de tendências sazonais.

  5. Em Limite de anomalia, escolha o limite em que um valor é considerado uma anomalia.

  6. Escolha Visualizar para gerar uma visualização prévia da análise.

  7. Escolha Adicionar para adicionar a transformação ao fluxo de dados do Data Wrangler.

Criar visualizações personalizadas

Você pode adicionar uma análise ao seu fluxo do Data Wrangler para criar uma visualização personalizada. Seu conjunto de dados, com todas as transformações que você aplicou, está disponível como um DataFrame do Pandas. O Data Wrangler usa a variável df para armazenar o quadro de dados. Você acessa o quadro de dados chamando a variável.

Você deve fornecer a variável de saída, chart, para armazenar um gráfico de saída do Altair. Por exemplo, você pode usar o seguinte bloco de código para criar um histograma personalizado usando o conjunto de dados do Titanic:

import altair as alt df = df.iloc[:30] df = df.rename(columns={"Age": "value"}) df = df.assign(count=df.groupby('value').value.transform('count')) df = df[["value", "count"]] base = alt.Chart(df) bar = base.mark_bar().encode(x=alt.X('value', bin=True, axis=None), y=alt.Y('count')) rule = base.mark_rule(color='red').encode( x='mean(value):Q', size=alt.value(5)) chart = bar + rule
Para criar uma visualização personalizada:
  1. Ao lado do nó que contém a transformação que você gostaria de visualizar, escolha o +.

  2. Escolha Adicionar análise.

  3. Em Tipo de análise, escolha Visualização personalizada.

  4. Em Nome da análise, especifique um nome.

  5. Insira seu código na caixa do código.

  6. Escolha Visualizar para visualizar sua visualização.

  7. Escolha Salvar para adicionar sua visualização.

Se você não souber como usar o pacote de visualização Altair em Python, você pode usar trechos de código personalizados para ajudá-lo a começar.

Data Wrangler possui uma coleção pesquisável de trechos de código de visualização. Para usar um trecho de visualização, escolha Pesquisar trechos de exemplo e especifique uma consulta na barra de pesquisa.

O exemplo a seguir usa o trecho de código para um gráfico de dispersão com bins. Traça um histograma para 2 dimensões.

Os trechos de código possuem comentários para ajudar você a entender as alterações que precisa fazer no código. Normalmente, é necessário especificar os nomes das colunas do seu conjunto de dados no código.

import altair as alt # Specify the number of top rows for plotting rows_number = 1000 df = df.head(rows_number) # You can also choose bottom rows or randomly sampled rows # df = df.tail(rows_number) # df = df.sample(rows_number) chart = ( alt.Chart(df) .mark_circle() .encode( # Specify the column names for binning and number of bins for X and Y axis x=alt.X("col1:Q", bin=alt.Bin(maxbins=20)), y=alt.Y("col2:Q", bin=alt.Bin(maxbins=20)), size="count()", ) ) # :Q specifies that label column has quantitative type. # For more details on Altair typing refer to # https://altair-viz.github.io/user_guide/encoding.html#encoding-data-types