Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Conjuntos de datos y tipos de problemas de Piloto automático
En el caso de los datos tabulares (es decir, los datos en los que cada columna contiene una función con un tipo de datos específico y cada fila contiene una observación), Piloto automático le ofrece la opción de especificar el tipo de problema de aprendizaje supervisado disponible para los candidatos modelo del trabajo de AutoML, como la clasificación binaria o la regresión, o de detectar dicho problema automáticamente en función de los datos que proporcione. El piloto automático también admite varios formatos y tipos de datos.
Temas
Conjuntos de datos, tipos de datos y formatos en Piloto automático
El piloto automático admite datos tabulares formateados como CSV archivos o archivos Parquet: cada columna contiene una entidad con un tipo de datos específico y cada fila contiene una observación. Las propiedades de estos dos formatos de archivo difieren considerablemente.
-
CSV(comma-separated-values) es un formato de archivo basado en filas que almacena datos en texto plano legible por humanos y que es una opción popular para el intercambio de datos, ya que es compatible con una amplia gama de aplicaciones.
-
Parquet es un formato de archivo basado en columnas en el que los datos se almacenan y procesan de forma más eficiente que en los formatos de archivo basados en filas. Esto los convierte en una mejor opción para los problemas en macrodatos.
Los tipos de datos aceptados para las columnas incluyen series numéricas, categóricas, de texto y temporales compuestas por cadenas de números separados por comas. Si Piloto automático detecta que son secuencias de series temporales, las procesa mediante transformadores de características especializados y proporcionados por la biblioteca tsfresh
El piloto automático permite crear modelos de aprendizaje automático en grandes conjuntos de datos de hasta cientos de ellos. GBs Para obtener más información sobre los límites de recursos predeterminados para los conjuntos de datos de entrada y cómo aumentarlos, consulte las cuotas de Piloto Automático.
Tipos de problemas de Piloto automático
En el caso de los datos tabulares, especifique también el tipo de problemas de aprendizaje supervisado disponibles para los candidatos al modelo de la siguiente manera:
Regresión
La regresión estima los valores de una variable objetivo dependiente en función de una o más variables o atributos que están correlacionados con ella. Un ejemplo es la predicción de los precios de la vivienda mediante características como el número de baños y dormitorios, metros cuadrados de la casa y el jardín. El análisis de regresión puede crear un modelo que tome una o más de estas características como entrada y prediga el precio de la casa.
Clasificación binaria
La clasificación binaria es un tipo de aprendizaje supervisado que asigna un individuo a una de dos clases predefinidas y mutuamente excluyentes basadas en sus atributos. Se considera supervisado porque los modelos se entrenan utilizando ejemplos en los que los atributos se proporcionan con objetos etiquetados correctamente. Un ejemplo de clasificación binaria es un diagnóstico médico de si un individuo tiene una enfermedad o no en función de los resultados de las pruebas de diagnóstico.
Clasificación multiclase
La clasificación multiclass es un tipo de aprendizaje supervisado que asigna un individuo a una de varias clases en función de sus atributos. Se considera supervisado porque los modelos se entrenan utilizando ejemplos en los que los atributos se proporcionan con objetos etiquetados correctamente. Un ejemplo es la predicción del tema más relevante para un documento de texto. Un documento puede clasificarse como que trata de religión, política, finanzas o de varias otras clases temáticas predefinidas.