Configuración de las actualizaciones automáticas de un conjunto de datos - Amazon SageMaker

Configuración de las actualizaciones automáticas de un conjunto de datos

Tras importar el conjunto de datos inicial a Amazon SageMaker Canvas, es posible que tenga datos adicionales que desee agregar al conjunto de datos. Por ejemplo, puede recibir datos de inventario al final de cada semana que desee agregar a su conjunto de datos. En lugar de importar los datos varias veces, puede actualizar el conjunto de datos existente y agregar o eliminar archivos del mismo.

nota

Solo puede actualizar los conjuntos de datos que haya importado mediante carga local o Amazon S3.

Con las actualizaciones automáticas de conjuntos de datos, especifique una ubicación en la que Canvas busca archivos con la frecuencia que determine. Si importa archivos nuevos durante la actualización, el esquema de los archivos debe coincidir exactamente con el conjunto de datos existente.

Cada vez que actualiza su conjunto de datos, Canvas crea una nueva versión de su conjunto de datos. Solo puede usar la última versión de su conjunto de datos para crear un modelo o generar predicciones. Para obtener más información acerca de cómo ver el historial de versiones de su conjunto de datos, consulte Visualización de detalles de su conjunto de datos.

También puede usar las actualizaciones del conjunto de datos con predicciones por lotes automatizadas, lo que inicia un trabajo de predicción por lotes cada vez que actualiza el conjunto de datos. Para obtener más información, consulte Predicciones por lotes en SageMaker Canvas.

En las secciones siguientes se describe cómo realizar actualizaciones automáticas en el conjunto de datos.

Una actualización automática se produce cuando establece una configuración para que Canvas actualice su conjunto de datos con una frecuencia determinada. Le recomendamos que utilice esta opción si recibe regularmente nuevos archivos de datos que desee agregar a su conjunto de datos.

Al establecer la configuración de actualización automática, especifica una ubicación de Amazon S3 en la que carga los archivos y la frecuencia con la que Canvas comprueba la ubicación e importa los archivos. Cada instancia en la que Canvas actualiza su conjunto de datos se denomina trabajo. Para cada trabajo, Canvas importa todos los archivos de la ubicación de Amazon S3. Si tiene archivos nuevos con los mismos nombres que los archivos existentes en su conjunto de datos, Canvas sobrescribe los archivos antiguos con los archivos nuevos.

Para las actualizaciones automáticas de los conjuntos de datos, Canvas no realiza la validación del esquema. Si el esquema de los archivos importados durante una actualización automática no coincide con el esquema de los archivos existentes o supera los límites de tamaño (consulte Importación de un conjunto de datos para ver una tabla con las limitaciones de tamaño de los archivos), se producen errores al ejecutar los trabajos.

nota

Solo puede configurar un máximo de 20 configuraciones automáticas en su aplicación de Canvas. Además, Canvas solo realiza actualizaciones automáticas mientras está conectado a la aplicación de Canvas. Si cierra sesión en su aplicación de Canvas, las actualizaciones automáticas se detienen hasta que vuelva a iniciar sesión.

Para configurar las actualizaciones automáticas de su conjunto de datos, haga lo siguiente:

  1. Abra la aplicación de SageMaker Canvas.

  2. En el panel de navegación de la izquierda, elija Conjuntos de datos.

  3. En la lista de conjuntos de datos, elija el conjunto de datos que desee actualizar.

  4. Seleccione el menú desplegable Actualización de conjunto de datos y seleccione Actualización automática. Se abrirá la pestaña Actualizaciones automáticas del conjunto de datos.

  5. Active la opción Actualización automática habilitada.

  6. En Especificar origen de datos, introduzca la ruta de Amazon S3 a la carpeta en la que vaya a cargar archivos con regularidad.

  7. En Elegir una frecuencia, seleccione Por hora, Semanalmente o Diariamente.

  8. Para Especificar una hora de inicio, utilice el calendario y el selector de hora para seleccionar cuándo desea que comience el primer trabajo de actualización automática.

  9. Cuando esté listo para crear la configuración de actualización automática, elija Guardar.

Canvas comienza el primer trabajo de la cadencia de actualización automática a la hora de inicio especificada.