Prepare los datos con In Studio SQL - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Prepare los datos con In Studio SQL

Amazon SageMaker Studio incluye una SQL extensión integrada. Esta extensión permite a los científicos de datos realizar tareas como el muestreo, el análisis exploratorio y la ingeniería de características directamente desde sus JupyterLab cuadernos. Aprovecha AWS Glue conexiones para mantener un catálogo de fuentes de datos centralizado. El catálogo almacena metadatos sobre varias fuentes de datos. A través de este SQL entorno, los científicos de datos pueden navegar por los catálogos de datos, explorar sus datos, crear SQL consultas complejas y seguir procesando los resultados en Python.

En esta sección se explica cómo configurar la SQL extensión en Studio. En él se describen las funciones que ofrece esta SQL integración y se proporcionan instrucciones para ejecutar SQL consultas en JupyterLab cuadernos.

Para habilitar el análisis de SQL datos, los administradores primero deben configurar AWS Glue conexiones para seleccionar fuentes de datos. Estas conexiones permiten a los científicos de datos acceder sin problemas a los conjuntos de datos autorizados desde dentro JupyterLab. Con el acceso configurado, JupyterLab los usuarios pueden:

  • Ver y explorar fuentes de datos preconfiguradas.

  • Busque, filtre e inspeccione los elementos de información de la base de datos, como tablas, esquemas y columnas.

  • Genere automáticamente los parámetros de conexión a una fuente de datos.

  • Cree SQL consultas complejas con las funciones de resaltado de sintaxis, autocompletado y SQL formato del editor de la extensión. SQL

  • Ejecuta SQL sentencias desde celdas de cuadernos. JupyterLab

  • Recupera los resultados de SQL las consultas como pandas DataFrames para continuar con el procesamiento, la visualización y otras tareas de aprendizaje automático.

Para acceder a la extensión, seleccione el icono de la SQL extensión ( ) en el panel de navegación izquierdo de JupyterLab la aplicación en Studio. Al pasar el ratón sobre el icono, aparece la información sobre la herramienta de descubrimiento de datos.

importante
  • Si es un administrador que desea configurar las conexiones a las fuentes de datos para la SQL extensión, siga estos pasos:

  • Si es un científico de datos que desea explorar y consultar sus fuentes de datos mediante la SQL extensión, asegúrese de que el administrador haya configurado las conexiones a las fuentes de datos y, a continuación, siga estos pasos:

    • Cree un espacio privado para iniciar la JupyterLab aplicación en Studio con la imagen de SageMaker distribución de la versión 1.6 o superior.

    • Si es usuario de la versión 1.6 de la imagen de SageMaker distribución, cargue la SQL extensión en una JupyterLab libreta ejecutándola %load_ext amazon_sagemaker_sql_magic en una celda de cuaderno.

      Para los usuarios de las versiones 1.7 y posteriores de la imagen de SageMaker distribución, no es necesario realizar ninguna acción: la SQL extensión se carga automáticamente.

    • Familiarícese con las capacidades de la SQL extensión enSQLcaracterísticas y uso de la extensión.