Seleccione sus preferencias de cookies

Usamos cookies esenciales y herramientas similares que son necesarias para proporcionar nuestro sitio y nuestros servicios. Usamos cookies de rendimiento para recopilar estadísticas anónimas para que podamos entender cómo los clientes usan nuestro sitio y hacer mejoras. Las cookies esenciales no se pueden desactivar, pero puede hacer clic en “Personalizar” o “Rechazar” para rechazar las cookies de rendimiento.

Si está de acuerdo, AWS y los terceros aprobados también utilizarán cookies para proporcionar características útiles del sitio, recordar sus preferencias y mostrar contenido relevante, incluida publicidad relevante. Para aceptar o rechazar todas las cookies no esenciales, haga clic en “Aceptar” o “Rechazar”. Para elegir opciones más detalladas, haga clic en “Personalizar”.

Refinación de datos durante el entrenamiento con Amazon SageMaker Smart Sifting

Modo de enfoque
Refinación de datos durante el entrenamiento con Amazon SageMaker Smart Sifting - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

SageMaker El tamizado inteligente es una capacidad de SageMaker entrenamiento que ayuda a mejorar la eficiencia de los conjuntos de datos de entrenamiento y a reducir el tiempo y el costo total del entrenamiento.

Los modelos modernos de aprendizaje profundo, como los modelos de lenguaje de gran tamaño (LLMs) o los modelos de transformación visual, suelen requerir conjuntos de datos masivos para lograr una precisión aceptable. Por ejemplo, LLMs a menudo se requieren billones de fichas o petabytes de datos para converger. El tamaño creciente de los conjuntos de datos de entrenamiento, junto con el tamaño de los state-of-the-art modelos, pueden aumentar el tiempo de procesamiento y el costo del entrenamiento de los modelos.

De manera invariable, las muestras de un conjunto de datos no contribuyen por igual al proceso de aprendizaje durante el entrenamiento del modelo. Una proporción importante de los recursos computacionales aprovisionados durante el entrenamiento podría dedicarse a procesar muestras sencillas que no contribuyen de manera considerable a la exactitud general de un modelo. Lo ideal sería que los conjuntos de datos de entrenamiento solo incluyeran muestras que realmente mejoren la convergencia del modelo. El filtrado de los datos menos útiles puede reducir el tiempo de entrenamiento y los costos de computación. Sin embargo, la identificación de los datos menos útiles puede resultar difícil y arriesgado. Es prácticamente difícil identificar qué ejemplos son menos informativos antes del entrenamiento, y la exactitud del modelo puede verse afectada si se excluyen ejemplos incorrectos o demasiados ejemplos.

El filtrado inteligente de los datos con Amazon SageMaker AI puede ayudar a reducir el tiempo y los costes de formación al mejorar la eficiencia de los datos. El algoritmo de filtrado SageMaker inteligente evalúa el valor de pérdida de cada dato durante la fase de carga de datos de un trabajo de formación y excluye las muestras que son menos informativas para el modelo. Al utilizar datos refinados para el entrenamiento, se reducen el tiempo y el costo totales del entrenamiento del modelo, ya que se eliminan las transferencias innecesarias hacia adelante y hacia atrás de los datos que no mejoran. Por lo tanto, el impacto en la exactitud del modelo es mínimo o nulo.

SageMaker El filtrado inteligente está disponible a través de SageMaker Training Deep Learning Containers (DLCs) y admite PyTorch cargas de trabajo a través del. PyTorch DataLoader Solo se necesitan unas pocas líneas de código para implementar el tamizado SageMaker inteligente y no es necesario cambiar los flujos de trabajo actuales de formación o procesamiento de datos.

PrivacidadTérminos del sitioPreferencias de cookies
© 2025, Amazon Web Services, Inc o sus afiliados. Todos los derechos reservados.