GPT-5.4 es, según OpenAI, un modelo frontera optimizado específicamente para el trabajo profesional del conocimiento y los flujos de trabajo con agentes, disponible en ChatGPT, la API y Codex. En esencia, combina una planificación e investigación más potentes, unas capacidades de código muy buenas, control nativo del ordenador y una eficiencia de tokens notablemente mejor, para que las tareas complejas se completen con menos aclaraciones y a menor coste. Además, existe GPT-5.4 Pro para obtener el máximo rendimiento en tareas especialmente exigentes.
- Qué variante encaja con cada forma de trabajar
- Qué cifras respaldan el salto de rendimiento
- Cómo se benefician los artefactos de Office y la fidelidad factual
- Qué cambia el control nativo del ordenador para los agentes
- Qué detalles de imagen cuentan ahora de verdad
- Por qué los desarrolladores necesitan menos cambios de contexto
- Cómo Tool Search reduce costes en ecosistemas de herramientas
- Un ejemplo end-to-end del día a día laboral
Lo que GPT 5.4 ofrece en la práctica
Qué variante encaja con cada forma de trabajar
GPT-5.4 arranca en ChatGPT como GPT-5.4 Thinking, además de en la API y Codex. Para tareas con la máxima complejidad, la empresa ofrece además GPT-5.4 Pro en ChatGPT y la API.
En ChatGPT, GPT-5.4 Thinking puede esbozar al principio un plan de trabajo, para que las correcciones se hagan pronto, antes de que el modelo se meta en los detalles. Esto busca menos ciclos de iteración, especialmente en entregables como documentos, diapositivas y tablas, que de otro modo requieren varias rondas.
Para los agentes también es relevante que GPT-5.4 en la API y Codex incorpora funciones nativas de ordenador y admite hasta 1M tokens de contexto, para que la planificación, la ejecución y la verificación se mantengan estables a lo largo de tramos de trabajo más largos.
Posicionamiento en el mercado como mini modelo Task Tool Token
De cara a 2026, el salto de GPT-5.4 puede situarse con una sencilla tríada: Task, Tool, Token. Task representa la calidad en productos reales de trabajo, Tool la capacidad de usar software y APIs de forma fiable, Token los costes y la velocidad en contextos largos.
GPT-5.4 aborda los tres ejes a la vez: mejor trabajo del conocimiento, mejores agentes mediante herramientas y ordenador, y menor consumo de tokens al razonar en comparación con GPT-5.2. A nivel de mercado, esa es la diferencia entre “buen chat” y “ejecutor fiable” para procesos que en los equipos cuestan tiempo real.
Regla de decisión clara para equipos y desarrolladores
Una regla de selección sólida es: Thinking para trabajo del conocimiento intensivo en planificación e investigación web, Pro cuando la tarea es de alto riesgo o muy ramificada, por ejemplo análisis legales, modelos financieros complejos o cadenas largas de herramientas con muchas dependencias. GPT-5.4 en la API merece especialmente la pena cuando un agente debe pasar por muchas herramientas y aplicaciones y la longitud de contexto o el coste de tokens han sido hasta ahora el cuello de botella.
Si la latencia es más importante que la máxima profundidad, en Codex también está previsto un modo /fast que, según OpenAI, aumenta la velocidad de salida de tokens sin cambiar de modelo. Es práctico para bucles de depuración en los que la velocidad marca el ritmo.
Rendimiento en cifras
Qué cifras respaldan el salto de rendimiento
OpenAI informa de varios benchmarks que cubren distintas formas de trabajar: trabajo del conocimiento, programación, uso de herramientas e investigación web con agentes. El siguiente resumen muestra los valores citados en el artículo para GPT-5.4, GPT-5.3-Codex y GPT-5.2.
| Benchmark | GPT-5.4 | GPT-5.3-Codex | GPT-5.2 |
|---|---|---|---|
| GDPval (wins o ties) | 83,0% | 70,9% | 70,9% |
| SWE-Bench Pro (Public) | 57,7% | 56,8% | 55,6% |
| OSWorld-Verified | 75,0% | 74,0% | 47,3% |
| Toolathlon | 54,6% | 51,9% | 46,3% |
| BrowseComp | 82,7% | 77,3% | 65,8% |
Nota de la fuente: el valor de OSWorld para GPT-5.3-Codex está relacionado, según OpenAI, con un nuevo parámetro de la API que conserva la resolución original de la imagen. Además, se corrigió un valor de OSWorld comunicado previamente.
Cómo se benefician los artefactos de Office y la fidelidad factual
En el benchmark GDPval, que evalúa trabajo del conocimiento bien especificado en 44 profesiones, GPT-5.4 alcanza, según OpenAI, al menos un empate frente a profesionales del sector en el 83,0% de las comparaciones. GPT-5.2 se situaba en la misma presentación en el 70,9%.
Para el trabajo de oficina típico, OpenAI cita dos series internas de mediciones: en tareas de modelización en hojas de cálculo, como las que aparecen en puestos júnior en banca de inversión, la media sube del 68,4% al 87,3%. En tareas de presentaciones, evaluadores humanos prefirieron resultados de GPT-5.4 en el 68,0% de los casos, debido a un mejor diseño, más variedad visual y una generación de imágenes más eficiente.
Además, GPT-5.4 apunta a menos afirmaciones falsas: según OpenAI, las afirmaciones individuales son un 33% menos erróneas y las respuestas completas un 18% menos defectuosas, en ambos casos en relación con GPT-5.2, medido con prompts desidentificados con marcas de error de usuarios.
Para uso empresarial, OpenAI recomienda un complemento de ChatGPT para Excel publicado recientemente, para acercar este trabajo con artefactos a los flujos de trabajo existentes.
Agentes en el ordenador y en imágenes
Qué cambia el control nativo del ordenador para los agentes
GPT-5.4 es, según OpenAI, el primer modelo de propósito general de la empresa con control nativo del ordenador a nivel state of the art. Se refiere a agentes que controlan software mediante capturas de pantalla, acciones de ratón y teclado, o que trabajan a través de librerías de automatización como Playwright.
Para los desarrolladores, la capacidad de control es clave: el comportamiento puede concretarse mediante Developer Messages; además, pueden definirse reglas de confirmación para ejecutar acciones de riesgo solo tras aprobación. OpenAI lo posiciona como un ajuste entre autonomía y cumplimiento.
En OSWorld-Verified, una prueba de entorno de escritorio con navegación e introducción de datos basada en capturas, OpenAI informa de un 75,0% de éxito, frente al 47,3% de GPT-5.2. En la misma fuente, el rendimiento humano se indica en un 72,4%.
Qué detalles de imagen cuentan ahora de verdad
La capacidad de ordenador depende de una percepción visual estable. OpenAI cita para MMMU-Pro sin uso de herramientas un 81,2% para GPT-5.4, frente al 79,5% de GPT-5.2.
En comprensión de documentos, el error en OmniDocBench baja, según OpenAI, de 0,140 a 0,109, medido como distancia de edición normalizada. Importa aquí el modo de coste: OmniDocBench se midió sin esfuerzo adicional de razonamiento, para reflejar un funcionamiento low-cost, low-latency.
También son nuevos los niveles escalonados de detalle de imagen para la API: un modo “original” debería admitir hasta 10,24 millones de píxeles de superficie total o un máximo de 6000 píxeles de longitud de borde, lo que se aplique primero. El anterior modo “high” se describe con hasta 2,56 millones de píxeles o 2048 píxeles de dimensión máxima.
Flujo de trabajo de desarrollo y ecosistema de herramientas
Por qué los desarrolladores necesitan menos cambios de contexto
Se supone que GPT-5.4 combina los puntos fuertes en código de GPT-5.3-Codex con capacidades de agentes y de Office, algo que cuenta sobre todo en tareas más largas, en las que se itera, se prueba y se verifica mediante herramientas. En SWE-Bench Pro, GPT-5.4 queda en las cifras citadas ligeramente por delante de GPT-5.3-Codex; a la vez, OpenAI subraya una menor latencia a través de los niveles de razonamiento.
En Codex, un modo /fast puede aumentar la velocidad de salida, según OpenAI hasta 1,5 veces la velocidad de tokens, sin cambiar la “inteligencia”. En la API, para objetivos similares se menciona Priority Processing.
OpenAI también destaca avances en tareas complejas de frontend, con mayor funcionalidad y un diseño visiblemente mejor. Como ejemplo sirve una habilidad experimental de Codex, “Playwright (Interactive)“, que permite depuración visual y playtesting durante el proceso de build.
Cómo Tool Search reduce costes en ecosistemas de herramientas
Tool Search aborda un problema de escalado muy tangible: cuando un agente conoce muchísimas herramientas, el clásico “meterlo todo en el prompt” infla la entrada en miles o decenas de miles de tokens. Tool Search le da la vuelta: el modelo recibe primero solo una lista ligera de herramientas y puede cargar definiciones bajo demanda.
OpenAI lo demuestra con 250 tareas del benchmark MCP Atlas de Scale con 36 servidores MCP activados: con Tool Search, el consumo de tokens baja de media un 47%, con la misma precisión. Además de en costes, esto afecta a la velocidad y a la estabilidad del contexto, porque menos “texto muerto” ocupa la caché y la ventana de contexto.
Qué cambia en la investigación web con agentes
Para información difícil de encontrar, OpenAI cita BrowseComp como métrica. GPT-5.4 sube ahí frente a GPT-5.2 en 17 puntos porcentuales absolutos; GPT-5.4 Pro alcanza, según la fuente, un 89,3% y marca así un nuevo mejor registro.
Operativamente, esto significa: se supone que el modelo conduce búsquedas con más persistencia a lo largo de varios pasos, pondera mejor las fuentes y fusiona los resultados de forma más limpia, especialmente en preguntas muy específicas de “aguja en un pajar”. OpenAI describe además blocklists para reducir la contaminación de benchmarks.
Implementación práctica
Un ejemplo end-to-end del día a día laboral
Ejemplo: un equipo de finanzas tiene que revisar semanalmente facturas de proveedores, aclarar desviaciones y actualizar una diapositiva para dirección. Con GPT-5.4, un agente puede primero fijar el plan: qué campos se revisan en una tabla, qué justificantes faltan, qué preguntas van a compras y qué métricas pasan a la presentación.
Después, la ejecución discurre por tres vías: la lógica de tablas se construye o edita en una hoja de cálculo, los documentos se extraen de contratos largos y PDFs y, si hace falta, el agente maneja una interfaz web para conciliaciones, por ejemplo portales o herramientas internas. La decisión de si hace falta el detalle de imagen “original” sigue una regla sencilla: activarlo solo cuando la precisión al hacer clic o los elementos pequeños de la UI sean relevantes; si no, mantenerse en el modo de detalle más barato.
El mayor ahorro de tiempo suele surgir no por una única respuesta mejor, sino por menos ciclos de corrección: menos alucinaciones, contexto más estable a lo largo de muchos pasos y Tool Search, para que las definiciones de herramientas no se paguen de nuevo en cada solicitud.

