Codex Cloud

OpenAI presenta Codex

La nueva revolución de la IA para el desarrollo de software en paralelo en la nube

Con Codex, OpenAI presenta un agente de software innovador basado en la nube que automatiza y acelera numerosas tareas en el ámbito del desarrollo de software. El servicio está disponible desde ya para ChatGPT Pro, Team y Enterprise; los usuarios de Plus tendrán acceso en breve.

¿Qué es Codex?

Codex es un potente agente de software basado en la nube, desarrollado por OpenAI, para ayudar a los desarrolladores en tareas muy diversas. El sistema puede implementar funcionalidades, responder preguntas sobre la base de código, corregir errores y proponer pull requests para revisión. Cada tarea se realiza en un entorno aislado en la nube, que se carga automáticamente con el repositorio correspondiente.

Codex

La base de Codex es el modelo codex-1, una variante de OpenAI o3 optimizada específicamente para ingeniería de software. El modelo se entrenó mediante aprendizaje por refuerzo con tareas reales de programación y se alinea estrechamente con estilos de código humanos y preferencias de pull requests.

Funcionamiento y uso

Codex es accesible directamente desde la interfaz de ChatGPT. Las nuevas tareas se inician simplemente introduciendo texto desde la barra lateral. Las preguntas sobre el código se pueden dirigir con “Ask”, mientras que las tareas de desarrollo se lanzan con “Code”. Cada tarea se ejecuta de forma independiente en su propio sandbox, preconfigurado con todos los archivos y dependencias relevantes del repositorio.

¿Qué puede hacer Codex?

  • Diseño en paralelo de PRs de GitHub: Codex puede crear pull requests (PRs) para correcciones de errores, actualizaciones de documentación o pequeñas funcionalidades de forma automatizada y trabajarlas en paralelo.
  • Navegación y análisis de la base de código: Codex navega por toda vuestra base de código, encuentra bugs, revisa el código y propone mejoras concretas.
  • Comprobaciones automatizadas de lint y pruebas: Ejecuta linters, comprobaciones de tipos y pruebas unitarias y de integración, incluyendo la instalación de las dependencias necesarias.
  • Compatibilidad con grandes bases de código: Codex trabaja con un nuevo modelo de programación especialmente adecuado para proyectos grandes y bases de código complejas.
  • Lectura y edición de archivos: Codex puede ver archivos directamente, modificarlos y editarlos en el contexto de la tarea.
  • Planificación detallada y gestión de tareas: Crea propuestas de optimización, planifica pasos de trabajo y asigna tareas en consecuencia (p. ej., “Recomienda 3 optimizaciones y crea un plan de tareas”).
  • Flujo de trabajo transparente y progreso en directo: El tiempo de procesamiento de cada tarea varía según la complejidad; el progreso y los cambios pueden consultarse en directo en cualquier momento.
  • Documentación trazable: Todos los cambios se commitean en un entorno aislado y se documentan de forma transparente mediante logs de terminal y resultados de pruebas.
  • Integración y procesos de revisión: Los desarrolladores pueden revisar los resultados, solicitar cambios, abrir pull requests o llevarse los resultados al entorno local.
  • Entorno de desarrollo configurable: El entorno puede ajustarse para que se parezca lo máximo posible al entorno real de desarrollo.

Una característica especial son los archivos AGENTS.md: proporcionan a Codex instrucciones específicas sobre cómo debe comportarse el sistema en el proyecto, comparable a un README ampliado. Aquí se pueden definir, por ejemplo, comandos de test o formas de trabajo específicas. Al igual que los desarrolladores humanos, Codex se beneficia de una documentación clara y de entornos de pruebas fiables.

Datos de entrenamiento y rendimiento

Codex se entrenó con una gran variedad de tareas reales de desarrollo de software y ya alcanza una alta calidad de resolución incluso sin adaptaciones específicas al proyecto. Benchmarks internos demuestran que el modelo implementa tareas con precisión según estándares humanos, sigue instrucciones al pie de la letra y ejecuta pruebas de forma automatizada hasta obtener un resultado positivo.

En el benchmark interno SWE de OpenAI, codex-1 alcanza una precisión significativamente superior a la de modelos anteriores. Los detalles y resultados concretos pueden consultarse en el artículo en inglés de OpenAI.

Seguridad y fiabilidad

Codex se ofrece inicialmente como vista previa de investigación. El diseño del sistema pone un gran énfasis en la seguridad y la transparencia: todas las acciones quedan respaldadas por logs de terminal y resultados de pruebas, de modo que los usuarios pueden seguir en todo momento la forma de trabajar del agente. En caso de dudas o de tests fallidos, Codex informa explícitamente y da indicaciones sobre los siguientes pasos.

A pesar de toda la automatización, sigue siendo imprescindible revisar manualmente todos los cambios generados por Codex antes del merge o de la ejecución.

Protección contra abusos y ejecución segura

La protección frente a usos indebidos, especialmente en tareas como el desarrollo de malware, es una prioridad central. Codex se ha entrenado para rechazar de forma específica solicitudes de desarrollo de software malicioso y, al mismo tiempo, apoyar tareas legítimas, también en el ámbito del low-level engineering. Se han ampliado las políticas de seguridad y se han complementado con evaluaciones exhaustivas, documentadas también en el System Card Addendum.

Durante el procesamiento, Codex trabaja exclusivamente en un entorno aislado de contenedores en la nube sin acceso a Internet. Solo tiene acceso al repositorio proporcionado y a dependencias preconfiguradas; los servicios externos permanecen inaccesibles.

Casos de uso en la práctica

Dentro de OpenAI ya se utiliza Codex de forma intensiva, por ejemplo para delegar tareas repetitivas como refactorización, generación de tests o borradores de documentación. Los equipos aprovechan la automatización para entregar más rápido y centrar el foco en tareas exigentes. También socios externos ya están probando Codex:

  • Cisco evalúa Codex para acelerar el desarrollo de funcionalidades y la innovación estratégica de producto.
  • Temporal utiliza Codex para corrección de errores, automatización de tests y refactorización de código.
  • Superhuman usa Codex para mejorar más rápido la cobertura de tests y resolver pequeñas tareas de integración; así, incluso los product managers pueden aportar primeros cambios de código.
  • Kodiak acelera con Codex el desarrollo de su stack de conducción autónoma, por ejemplo mediante herramientas de depuración y optimización de tests.

Basándose en estas experiencias, OpenAI recomienda asignar tareas claramente acotadas a varias instancias de Codex y probar distintas estrategias de prompting para aprovechar al máximo el potencial del sistema.

Codex CLI y acceso para desarrolladores

En paralelo a la solución en la nube, desde hace poco está disponible Codex CLI, un agente open source ligero para la línea de comandos. Integra modelos como o3 y o4-mini directamente en el setup local de desarrollo. La novedad es una variante optimizada específicamente (codex-mini-latest), pensada para baja latencia e interacciones de código rápidas. Este modelo está disponible tanto como estándar en la CLI como vía API y se mejora de forma periódica.

Se ha simplificado el registro para Codex CLI: en lugar de configurar manualmente tokens de la API, ahora basta con iniciar sesión con la cuenta de ChatGPT. Los usuarios Pro y Plus también reciben temporalmente créditos de API gratuitos (hasta 50 USD) para facilitar el arranque.

Disponibilidad, precios y limitaciones

Desde ya, Codex se está desplegando a nivel mundial para ChatGPT Pro, Enterprise y Team. Los usuarios de Plus y Edu se incorporarán en breve. El servicio puede utilizarse inicialmente sin costes adicionales; en las próximas semanas se introducirán límites de uso y modelos de precios flexibles, en los que se podrá añadir consumo adicional según necesidad.

El modelo codex-mini-latest está disponible para desarrolladores a través de la Responses API y se factura a 1,50 USD por 1 M de tokens de entrada y 6 USD por 1 M de tokens de salida, con un 75% de descuento en prompts repetidos.

Como vista previa de investigación, a Codex todavía le faltan algunas funciones, como inputs de imagen para tareas de frontend o la posibilidad de intervenir directamente mientras las tareas están en ejecución. Trabajar con un agente remoto también puede requerir más tiempo que la edición interactiva, lo que exige cierta adaptación.

Perspectivas y desarrollos futuros

OpenAI está trabajando en un conjunto completo de herramientas que admita tanto la colaboración en tiempo real como la delegación asíncrona. La visión: los desarrolladores se quedan con las tareas que quieren diseñar ellos mismos y delegan todo lo demás en agentes de IA inteligentes, para ganar velocidad y foco. En el futuro, los desarrolladores también podrán controlar de forma específica agentes Codex durante tareas en curso, desarrollar estrategias conjuntamente y recibir actualizaciones proactivas de estado. También se prevén integraciones más profundas con herramientas existentes como issue trackers, sistemas de CI y ChatGPT Desktop.

La integración de agentes de IA como Codex está transformando el desarrollo de software de forma fundamental y abre nuevas posibilidades para equipos y desarrolladores individuales. OpenAI investiga junto con socios el impacto en los flujos de trabajo y el desarrollo de habilidades, apostando por un enfoque responsable e iterativo.

Más información y mensaje del sistema

Para más detalles y benchmarks, se recomienda el artículo en inglés de OpenAI. Para entender mejor el funcionamiento de Codex, OpenAI también ha publicado el mensaje del sistema de codex-1. Este incluye, entre otras cosas, directrices para flujos de trabajo con Git, el uso de archivos AGENTS.md y la documentación exacta de todos los pasos de trabajo, para que los desarrolladores puedan adaptar el agente de forma precisa también en sus propios procesos.


Publicado

en

por