Modelle und Denken

Por qué a los modelos les cuesta ocultar su razonamiento

CoT Monitoring y la cuestión de la controlabilidad

Para la supervisión de agentes autónomos no solo cuenta si un modelo responde «bien», sino si su huella de pensamiento sigue siendo útil como señal, incluso cuando el modelo sabe que alguien lo está leyendo.

Por qué una baja controlabilidad del CoT ayuda a la seguridad

Muchos enfoques de seguridad apuestan por una defensa en profundidad: entrenamiento de seguridad, tests de comportamiento, revisiones de código de agentes y, además, el análisis de trazas de razonamiento. Según OpenAI, este despliegue gradual con un ajuste continuo de las medidas de protección es clave, porque capacidades y riesgos crecen a la vez.

El Chain-of-thought Monitoring utiliza las consideraciones intermedias de un agente como señal de alerta temprana, por ejemplo ante desviaciones del objetivo o planes de acción arriesgados. Pero esto solo funciona mientras los modelos no puedan adaptar su huella de pensamiento de forma deliberadamente «cosmética» para engañar a los monitores.

Controlabilidad del CoT, definida brevemente

Chain of thought se refiere a los pasos intermedios que genera un modelo al resolver una tarea. Controlabilidad del CoT significa la capacidad de controlar de forma deliberada propiedades de esos pasos intermedios, de modo que la supervisión sea menos informativa.

Una medición ideal comprobaría si un modelo, con incentivos reales para engañar, puede ocultar su huella de pensamiento. Como en la práctica esto es difícil de reflejar directamente, el estudio utiliza un proxy: ¿puede el modelo seguir instrucciones que se refieren explícitamente a su razonamiento interno, no solo a la salida final visible?

CoT-Control, conjunto de datos y hallazgos principales

Qué incluye el benchmark CoT-Control

Como instrumento de medición se utiliza CoT-Control, una suite de evaluación de código abierto. Incluye más de 13.000 tareas, compuestas a partir de benchmarks consolidados como GPQA, MMLU-Pro, HLE, BFCL y SWE-Bench Verified.

El diseño es sistemático: cada tarea técnica se empareja con exactamente una instrucción de CoT, por ejemplo usar solo minúsculas, evitar determinadas palabras clave en el razonamiento o añadir una palabra fija a cada frase. El objetivo es comprobar el control de la huella de pensamiento en sí, no el estilo lingüístico en la respuesta final.

Resultados en 13 modelos

En pruebas con 13 modelos de razonamiento, la controlabilidad del CoT resulta en general muy baja. Se mide el porcentaje de trazas de razonamiento en las que se cumple correctamente la instrucción de CoT; los valores arrancan en torno al 0,1% y en ningún modelo líder probado superan el 15,4%.

Llama la atención que el problema no es simplemente «falta de comprensión». A menudo, los modelos reconocen en sus propios pasos intermedios que están incumpliendo la instrucción y aun así continúan incumpliéndola. Para la monitorización, esto es una buena noticia, porque sugiere que la ocultación intencional, a día de hoy, no se consigue de forma fiable.

De qué depende la controlabilidad

El estudio describe tres patrones recurrentes: los modelos más grandes tienden a ser más controlables, pero la mejora se aplana en tamaños grandes. Cuando se pide a los modelos que «piensen» más tiempo, la controlabilidad baja en lugar de subir. Además, el postentrenamiento puede empeorar de forma notable la capacidad de control del CoT; en el ejemplo de una serie de entrenamiento con RL (OLMo-3-7B-RL-Zero-Math), la puntuación cae a lo largo del proceso en más de un factor diez.

Palanca Observación en el estudio Importancia para la monitorización
Tamaño del modelo Más parámetros, una controlabilidad del CoT algo mayor, con rendimientos marginales decrecientes A largo plazo, un posible factor de riesgo; debe medirse de manera continua
Fases de razonamiento más largas La controlabilidad disminuye cuanto más larga es la huella de pensamiento Facilita la monitorización, porque el camuflaje a lo largo de muchos pasos difícilmente se mantiene consistente
Postentrenamiento (ejemplo con RL) En un caso mostrado, caída de >10x durante el entrenamiento Puede reforzar indirectamente la monitorización, pero depende del modelo y del entrenamiento
Aviso de monitorización o evaluación Ligero pero perceptible aumento de la controlabilidad Muestra que el marco de incentivos tiene efectos, aunque el nivel siga siendo bajo
Optimización automática del prompt Mejora las tareas de entrenamiento, pero se transfiere mal a nuevos tipos de instrucciones Reduce el temor a los «prompt hacks» como herramienta de camuflaje universal

Para simular incentivos más realistas, a veces se avisa explícitamente a los modelos de que su huella de pensamiento está siendo monitorizada o evaluada. Esto eleva un poco la controlabilidad, pero no cambia la conclusión general de que el control fiable rara vez funciona.

Límites del estudio y consecuencias prácticas

Por qué esto es solo un proxy

CoT-Control no mide directamente si un modelo con un objetivo propio y problemático engaña activamente a los monitores. En su lugar, se utiliza un atajo: el cumplimiento de instrucciones artificiales de CoT. Es práctico, pero puede pasar por alto ciertas estrategias de engaño, o en otros casos infravalorar capacidades si las instrucciones son poco naturales.

Además, una baja controlabilidad no es garantía de una monitorización sostenida. La capacidad de monitorización también puede erosionarse por otros motivos, por ejemplo si los sistemas empiezan a convertir su propia huella de pensamiento en un objetivo de optimización, o si nuevos métodos de entrenamiento cambian la estructura de las trazas de razonamiento.

Consecuencias para equipos de producto y supervisión

Ejemplo práctico: Una empresa utiliza un agente de programación que prepara pull requests y lanza tests. En paralelo, el equipo de seguridad ejecuta CoT Monitoring para detectar pronto acciones arriesgadas como saltarse revisiones o ejecutar comandos inseguros. Si el agente no puede «limpiar» su huella de pensamiento de forma fiable, las señales de alerta tienden a seguir siendo visibles, incluso si el agente sabe que está siendo monitorizado.

Regla de decisión: En cuanto un modelo, en comprobaciones tipo CoT-Control, se sitúe de forma estable en el rango de los dos dígitos porcentuales en varias clases de instrucciones, especialmente bajo avisos explícitos de monitorización, el CoT Monitoring no debería considerarse ya como única instancia de control. Entonces hacen falta además un sandboxing de ejecución más estricto, políticas de herramientas más restrictivas y tests de comportamiento independientes más fuertes antes de aumentar los niveles de autonomía.

Mini-modelo para contextualizar: El riesgo de fallos de monitorización aumenta cuando crecen a la vez tres magnitudes: talento (capacidades), velocidad (autonomía y rapidez de actuación) y camuflaje (controlabilidad del CoT). El estudio muestra actualmente un desequilibrio: talento y velocidad suben, el camuflaje sigue siendo relativamente débil, lo que hace que el CoT Monitoring parezca robusto a corto plazo.

Como siguiente paso, según OpenAI, en futuras System Cards se informará conjuntamente sobre la controlabilidad del CoT y la monitorización del CoT, empezando por GPT-5.4 Thinking. Así, el estudio posiciona la controlabilidad del CoT como una métrica «canaria» que indica pronto si los modelos se acercan a la formación deliberada de huellas de pensamiento. Fuente: openai.com, publicado el 5 de marzo de 2026, autores Tomek Korbak, Micah Carroll, Bowen Baker, Ian Kivlichan.


Publicado

en

por

Etiquetas: