Evaluación del modelo de razonamiento
Descripción general
La compatibilidad con el modelo de razonamiento permite la evaluación con modelos de Nova capaces de razonar que realizan un razonamiento interno explícito antes de generar las respuestas finales. Esta característica utiliza el control de la API mediante el parámetro reasoning_effort para activar o desactivar de forma dinámica la funcionalidad de razonamiento, lo que podría mejorar la calidad de la respuesta en tareas analíticas complejas.
Modelos compatibles
-
amazon.nova-2-lite-v1:0:256k
Configuración de fórmulas
Active el razonamiento agregando el parámetro reasoning_effort a la sección inference de su fórmula:
run: name: reasoning-eval-job-name # [MODIFIABLE] Unique identifier for your evaluation job model_type: amazon.nova-2-lite-v1:0:256k # [FIXED] Must be a reasoning-supported model model_name_or_path: nova-lite-2/prod # [FIXED] Path to model checkpoint or identifier replicas: 1 # [MODIFIABLE] Number of replicas for SageMaker Training job data_s3_path: "" # [MODIFIABLE] Leave empty for SageMaker Training job; optional for SageMaker HyperPod job output_s3_path: "" # [MODIFIABLE] Output path for SageMaker HyperPod job (not compatible with SageMaker Training jobs) evaluation: task: mmlu # [MODIFIABLE] Evaluation task strategy: zs_cot # [MODIFIABLE] Evaluation strategy metric: accuracy # [MODIFIABLE] Metric calculation method inference: reasoning_effort: high # [MODIFIABLE] Enables reasoning mode; options: low/high or null to disable max_new_tokens: 32768 # [MODIFIABLE] Maximum tokens to generate, recommended value when reasoning_effort set to high top_k: -1 # [MODIFIABLE] Top-k sampling parameter top_p: 1.0 # [MODIFIABLE] Nucleus sampling parameter temperature: 0 # [MODIFIABLE] Sampling temperature (0 = deterministic)
Uso del parámetro reasoning_effort
El parámetro reasoning_effort controla el comportamiento de razonamiento de los modelos con capacidad de razonamiento.
Requisitos previos
-
Compatibilidad del modelo: establezca
reasoning_effortsolo cuandomodel_typeespecifique un modelo con capacidad de razonamiento (actualmente,amazon.nova-2-lite-v1:0:256k). -
Gestión de errores: si se utiliza
reasoning_effortcon modelos no compatibles, se producirá un error:ConfigValidationError: "Reasoning mode is enabled but model '{model_type}' does not support reasoning. Please use a reasoning-capable model or disable reasoning mode."
Opciones disponibles
| Opción | Comportamiento | Límite de tokens | Caso de uso |
|---|---|---|---|
| null (por defecto) | Desactiva el modo de razonamiento | N/A | Evaluación estándar sin sobrecarga de razonamiento |
| low | Permite razonar con restricciones | 4000 tokens para el razonamiento interno | Escenarios que requieren un razonamiento conciso; optimiza para una mayor velocidad y rentabilidad |
| high | Permite razonar sin restricciones | El razonamiento interno no tiene un límite de tokens | Problemas complejos que requieren un análisis exhaustivo y un razonamiento paso a paso |
| Método de entrenamiento | Opciones disponibles | Cómo se configura |
|---|---|---|
| SFT (refinamiento supervisado) | Solo Alto o Desactivado | Utilice reasoning_enabled: true (alto) o reasoning_enabled: false (desactivado). |
| RFT (refinamiento por refuerzo) | Bajo, Alto o Desactivado | Utilice reasoning_effort: bajo o reasoning_effort: alto. Omita el campo para deshabilitarlo. |
| Evaluación | Bajo, Alto o Desactivado | Utilice reasoning_effort: bajo o reasoning_effort: alto. Utilice nulo para deshabilitarlo. |
¿Cuándo habilitar el razonamiento?
Cuándo se debe usar el modo de razonamiento (low o high)
-
Tareas complejas de resolución de problemas (matemáticas, acertijos de lógica, programación).
-
Preguntas analíticas de varios pasos que requieran un razonamiento intermedio.
-
Tareas en las que las explicaciones detalladas o el pensamiento paso a paso mejoren la precisión.
-
Escenarios en los que se dé prioridad a la calidad de la respuesta por encima de la velocidad.
Cuándo se debe usar el modo sin razonamiento (null u omita el parámetro)
-
Preguntas y respuestas sencillas o consultas fácticas.
-
Tareas de escritura creativa.
-
Tareas en las que los tiempos de respuesta más rápidos sean fundamentales.
-
Evaluación comparativa del rendimiento, en la que debe excluirse la sobrecarga de razonamiento.
-
Priorización de la rentabilidad cuando el razonamiento no mejore el rendimiento de la tarea.
Solución de problemas
Error: “Reasoning mode is enabled but model does not support reasoning"
Causa: el parámetro reasoning_effort está establecido en un valor que no es null, pero el valor especificado para model_type no admite el razonamiento.
Solución:
-
Compruebe que el tipo de modelo sea
amazon.nova-2-lite-v1:0:256k. -
Si utiliza un modelo diferente, cámbielo a un modelo que pueda razonar o elimine el parámetro
reasoning_effortde la fórmula