Automatice la preparación de datos en SageMaker Canvas

Modo de enfoque

Automatice la preparación de datos en SageMaker Canvas - Amazon SageMaker AI

Automatice la preparación de datos mediante canalizaciones Automatice la preparación de datos mediante un punto de conexión de inferencia Automatización de la preparación de datos con código Python

Tras transformar los datos en un flujo de datos, puede exportar las transformaciones a los flujos de trabajo de machine learning. Cuando exporta sus transformaciones, SageMaker Canvas crea un cuaderno Jupyter. Debe ejecutar el bloc de notas en Amazon SageMaker Studio Classic. Para obtener más información acerca de la utilización de Studio Classic, póngase en contacto con su administrador.

Automatice la preparación de datos mediante canalizaciones

Si desea crear e implementar flujos de trabajo de aprendizaje automático (ML) a gran escala, puede usar Pipelines para crear flujos de trabajo que gestionen e implementen trabajos de SageMaker IA. Con Pipelines, puedes crear flujos de trabajo que gestionen la preparación de datos de SageMaker IA, la formación de modelos y los trabajos de despliegue de modelos. Puedes usar los algoritmos propios que ofrece la SageMaker IA mediante Pipelines. Para obtener más información sobre Pipelines, consulta Pipelines. SageMaker

Cuando exporta uno o más pasos de su flujo de datos a Canalizaciones, Data Wrangler crea un cuaderno de Jupyter que puede utilizar para definir, instanciar, ejecutar y administrar una canalización.

Uso de un cuaderno de Jupyter para crear una canalización

Utilice el siguiente procedimiento para crear un cuaderno de Jupyter para exportar el flujo de Data Wrangler a Canalizaciones.

Utilice el siguiente procedimiento para generar un cuaderno de Jupyter y ejecutarlo para exportar el flujo de Data Wrangler a Canalizaciones.

Elija el signo + junto al nodo que desea exportar.
Elija Exportar flujo de datos.
Elija Canalizaciones (a través del cuaderno de Jupyter).
Descargue el cuaderno de Jupyter o cópielo en una ubicación de Amazon S3. Recomendamos copiarlo en una ubicación de Amazon S3 a la que pueda acceder desde Studio Classic. Póngase en contacto con el administrador si necesita orientación sobre una ubicación adecuada.
Ejecute el cuaderno de Jupyter.

Puede utilizar el cuaderno de Jupyter que produce Data Wrangler para definir una canalización. La canalización incluye los pasos de procesamiento de datos definidos por el flujo de Data Wrangler.

Puede agregar pasos adicionales a la canalización si agrega pasos a la lista steps que aparece en el siguiente código del cuaderno:


pipeline = Pipeline(
    name=pipeline_name,
    parameters=[instance_type, instance_count],
    steps=[step_process], #Add more steps to this list to run in your Pipeline
)

Para obtener más información sobre la definición de canalizaciones, consulta Definir SageMaker canalización de IA.

Automatice la preparación de datos mediante un punto de conexión de inferencia

Utilice su flujo de Data Wrangler para procesar los datos en el momento de la inferencia creando una canalización de inferencia en serie de SageMaker IA a partir de su flujo de Data Wrangler. Una canalización de inferencia es una serie de pasos que dan como resultado que un modelo entrenado haga predicciones a partir de nuevos datos. Una canalización de inferencia en serie dentro de Data Wrangler transforma los datos sin procesar y los proporciona al modelo de machine learning para que realice una predicción. La canalización de inferencia se crea, ejecuta y administra desde un cuaderno de Jupyter en Studio Classic. Para obtener más información acerca de cómo acceder al cuaderno, consulte Uso de un cuaderno de Jupyter para crear un punto de conexión de inferencia.

En el cuaderno, puede entrenar un modelo de machine learning o especificar uno que ya haya entrenado. Puede usar Amazon SageMaker Autopilot o XGBoost entrenar el modelo con los datos que ha transformado en su flujo de Data Wrangler.

La canalización permite realizar inferencias por lotes o en tiempo real. También puede añadir el flujo de Data Wrangler a Model Registry. SageMaker Para obtener más información acerca de los modelos de alojamiento, consulte Puntos de conexión multimodelo.

importante

No puede exportar el flujo de Data Wrangler a un punto de conexión de inferencia si tiene las siguientes transformaciones:

Join
Concatenar
Agrupación por

Si tiene que usar las transformaciones anteriores para preparar los datos, use el siguiente procedimiento.

Para preparar los datos para la inferencia con transformaciones no compatibles

Cree un flujo de Data Wrangler.
Aplique las transformaciones anteriores que no son compatibles.
Exporte los datos a un bucket de Amazon S3.
Cree un flujo de Data Wrangler independiente.
Importe los datos que haya exportado del flujo anterior.
Aplique el resto de las transformaciones.
Cree una canalización de inferencia en serie con el cuaderno de Jupyter que le proporcionamos.

Para obtener información sobre la exportación de datos a un bucket de Amazon S3, consulte Exportar datos. Para obtener información sobre cómo abrir el cuaderno de Jupyter utilizado para crear la canalización de inferencia en serie, consulte Uso de un cuaderno de Jupyter para crear un punto de conexión de inferencia.

Data Wrangler hace caso omiso de las transformaciones que eliminan datos en el momento de la inferencia. Por ejemplo, Data Wrangler hace caso omiso de la transformación Gestión de valores que faltan si utiliza la configuración Eliminar ausentes.

Si ha modificado las transformaciones de todo el conjunto de datos, las transformaciones se aplicarán a la canalización de inferencia. Por ejemplo, si empleó el valor de la mediana para imputar los valores ausentes, el valor de la mediana resultante del reajuste de la transformada se aplica a las solicitudes de inferencia. Puede reajustar las transformaciones del flujo de Data Wrangler cuando utilice el cuaderno de Jupyter o cuando exporte los datos a una canalización de inferencia.

La canalización de inferencia en serie admite los siguientes tipos de datos para las cadenas de entrada y salida. Cada tipo de datos tiene un conjunto de requisitos.

Tipos de datos admitidos

text/csv: el tipo de datos de las cadenas CSV.
- La cadena no puede tener un encabezado.
- Las características utilizadas para la canalización de inferencia deben estar en el mismo orden que las características del conjunto de datos de entrenamiento.
- Debe haber un delimitador de coma entre las características.
- Los registros deben estar delimitados por un carácter de nueva línea.
A continuación, se muestra un ejemplo de una cadena CSV con un formato válido que puede proporcionar en una solicitud de inferencia.
```
abc,0.0,"Doe, John",12345\ndef,1.1,"Doe, Jane",67890                    
                
```
application/json: el tipo de datos de las cadenas JSON.
- Las características utilizadas para la canalización de inferencia deben estar en el mismo orden que las características del conjunto de datos de entrenamiento.
- Los datos deben tener un esquema específico. El esquema se define como un objeto instances único que tiene un conjunto de features. Cada objeto features representa una observación.
A continuación, se muestra un ejemplo de una cadena JSON con un formato válido que puede proporcionar en una solicitud de inferencia.
```
{
    "instances": [
        {
            "features": ["abc", 0.0, "Doe, John", 12345]
        },
        {
            "features": ["def", 1.1, "Doe, Jane", 67890]
        }
    ]
}                  
                
```

Uso de un cuaderno de Jupyter para crear un punto de conexión de inferencia

Utilice el siguiente procedimiento para exportar el flujo de Data Wrangler y crear una canalización de inferencia.

Para crear una canalización de inferencia con un cuaderno de Jupyter, haga lo siguiente.

Elija el signo + junto al nodo que desea exportar.
Elija Exportar flujo de datos.
Elija SageMaker AI Inference Pipeline (a través de Jupyter Notebook).
Descargue el cuaderno de Jupyter o cópielo en una ubicación de Amazon S3. Recomendamos copiarlo en una ubicación de Amazon S3 a la que pueda acceder desde Studio Classic. Póngase en contacto con el administrador si necesita orientación sobre una ubicación adecuada.
Ejecute el cuaderno de Jupyter.

Al ejecutar el cuaderno de Jupyter, se crea un artefacto de flujo de inferencia. Un artefacto de flujo de inferencia es un archivo de flujo de Data Wrangler con metadatos adicionales que se utiliza para crear la canalización de inferencia en serie. El nodo que exporta incluye todas las transformaciones de los nodos anteriores.

importante

Data Wrangler necesita el artefacto del flujo de inferencia para ejecutar la canalización de inferencia. No puede usar su propio archivo de flujo como artefacto. Debe crearlo mediante el procedimiento anterior.

Automatización de la preparación de datos con código Python

Para exportar todos los pasos del flujo de datos a un archivo de Python que pueda integrar manualmente en cualquier flujo de trabajo de procesamiento de datos, utilice el siguiente procedimiento.

Siga este procedimiento para generar un cuaderno de Jupyter y ejecútelo para exportar el flujo de Data Wrangler a código de Python.

Elija el signo + junto al nodo que desea exportar.
Elija Exportar flujo de datos.
Elija Código Python.
Descargue el cuaderno de Jupyter o cópielo en una ubicación de Amazon S3. Recomendamos copiarlo en una ubicación de Amazon S3 a la que pueda acceder desde Studio Classic. Póngase en contacto con el administrador si necesita orientación sobre una ubicación adecuada.
Ejecute el cuaderno de Jupyter.

Es posible que tenga que configurar el script de Python para que se ejecute en su canalización. Por ejemplo, si ejecutas un entorno de Spark, asegúrate de ejecutar el script desde un entorno que tenga permiso para acceder a los recursos. AWS

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Creación de una programación para procesar automáticamente los datos nuevos

Modelos fundacionales de IA generativa

En esta página

Seleccione sus preferencias de cookies

Personalizar preferencias de cookies

Esenciales

De rendimiento

Funcionales

De publicidad

No se pueden guardar las preferencias de cookies

Automatice la preparación de datos en SageMaker Canvas

Automatice la preparación de datos mediante canalizaciones

Uso de un cuaderno de Jupyter para crear una canalización

Automatice la preparación de datos mediante un punto de conexión de inferencia

importante

Para preparar los datos para la inferencia con transformaciones no compatibles

Tipos de datos admitidos

Uso de un cuaderno de Jupyter para crear un punto de conexión de inferencia

importante

Automatización de la preparación de datos con código Python

En esta página

Related resources

¿Le ha servido de ayuda esta página?

Related resources

Tema siguiente:

Tema anterior:

¿Necesita ayuda?