SageMaker Algoritmos integrados para datos tabulares - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

SageMaker Algoritmos integrados para datos tabulares

Amazon SageMaker proporciona algoritmos integrados que se adaptan al análisis de datos tabulares. Los datos tabulares son conjuntos de datos organizados en tablas compuestas por filas (observaciones) y columnas (características). SageMaker Los algoritmos integrados para datos tabulares se pueden utilizar para problemas de clasificación o regresión.

  • AutoGluon-Tabular: un marco AutoML de código abierto que funciona ensamblando modelos y apilándolos en varias capas.

  • CatBoost: una implementación del algoritmo de árboles potenciados por gradientes, con una potenciación ordenada y un algoritmo innovador para procesar características categóricas.

  • Algoritmo de máquinas de factorización: una extensión de un modelo lineal que se ha diseñado para capturar de manera económica las interacciones entre características dentro de conjuntos de datos dispersos y de grandes dimensiones.

  • Algoritmo k vecinos más próximos (k-NN) (K-Nearest Neighbors): un método no paramétrico que utiliza los k puntos etiquetados más cercanos para asignarle una etiqueta a un nuevo punto de datos (para la clasificación), o un valor objetivo previsto a partir de la media de los k puntos más cercanos (para la regresión).

  • Luz GBM: una implementación del algoritmo de árboles potenciados por gradiente que añade dos técnicas novedosas para mejorar la eficiencia y la escalabilidad; el muestreo unilateral basado en gradientes (GOSS) y la agrupación de características exclusivas (EFB).

  • Algoritmo de aprendizaje lineal: aprende una función lineal para la regresión o una función de umbral lineal para la clasificación.

  • TabTransformer—una novedosa arquitectura de modelado profundo de datos tabulares basada en self-attention-based Transformers.

  • XGBoostalgoritmo con Amazon SageMaker: una implementación del algoritmo de árboles con potenciación por gradiente que combina un conjunto de estimaciones a partir de un conjunto de modelos más simples y débiles.

Nombre de algoritmo Nombre de canal Modo de entrada de capacitación Tipo de archivo Clase de instancia Paralelizable
AutoGluon-Tabular entrenamiento y validación (opcional) Archivos CSV CPU o GPU (solo instancia única) No
CatBoost entrenamiento y validación (opcional) Archivos CSV CPU (solo instancia única) No
Máquinas de factorización capacitación y prueba (opcional) Archivo o canalización recordIO-protobuf CPU (GPU para datos densos)
K-Nearest-Neighbors (k-NN) capacitación y prueba (opcional) Archivo o canalización recordIO-protobuf o CSV CPU o GPU (dispositivo de GPU único en una o varias instancias)
LightGBM entrenamiento y validación (opcional) Archivos CSV CPU (solo instancia única) No
Aprendiz lineal capacitación y validación (opcional), prueba o ambos Archivo o canalización recordIO-protobuf o CSV CPU o GPU
TabTransformer entrenamiento y validación (opcional) Archivos CSV CPU o GPU (solo instancia única) No
XGBoost (0.90-1, 0.90-2, 1.0-1, 1.2-1, 1.2-21) capacitación y validación (opcional) Archivo o canalización CSV, LibSVM o Parquet CPU (o GPU para 1.2-1)