ChatGPT Agent

ChatGPT Agent: el nuevo asistente de IA

Nueva era de la asistencia de IA con herramientas capaces de actuar

Con el ChatGPT Agent comienza una nueva fase del uso de la IA, ya que por primera vez ChatGPT puede realizar tareas complejas de forma autónoma y proactiva, incluida la interacción directa con sitios web y aplicaciones.

Lo que puede hacer el ChatGPT Agent

El nuevo ChatGPT Agent amplía ChatGPT con la capacidad de realizar tareas por sí mismo, desde la investigación hasta la acción concreta. Para ello utiliza un ordenador virtual y una selección de herramientas especializadas, por ejemplo para analizar citas del calendario, crear presentaciones, comparar competidores o incluso planificar compras y realizarlas directamente.

Trabajos como investigar noticias para reuniones con clientes, planificar y pedir ingredientes para un desayuno japonés o crear presentaciones y hojas de cálculo editables pasan ahora a estar automatizados por ChatGPT. La IA puede visitar sitios web, filtrar resultados, solicitar un inicio de sesión seguro cuando sea necesario, ejecutar código, realizar análisis y entregar los resultados en formatos editables.

El control sigue estando siempre en manos del usuario: antes de cualquier acción importante se solicita una confirmación y los procesos se pueden detener o asumir en cualquier momento.

De Operator & Deep Research al agente

El ChatGPT Agent reúne los puntos fuertes de dos sistemas hasta ahora separados: mientras que Operator podía manejar sitios web y realizar tareas como hacer clic o escribir, el foco de Deep Research estaba en el análisis y la preparación de la información. Estos enfoques, hasta ahora separados, se han integrado en un único sistema y se han complementado con más herramientas. Así, ChatGPT puede alternar de forma flexible entre investigación, interacción y acción, todo de manera fluida dentro de una conversación.

Herramientas y forma de trabajo

Para llevarlo a cabo, el agente utiliza una serie de componentes especializados:

  • Navegador visual – interactúa gráficamente con sitios web, de forma similar a una persona.
  • Navegador basado en texto – para consultas web eficientes orientadas al texto.
  • Terminal – permite análisis complejos y la ejecución de código.
  • Acceso directo a la API – por ejemplo, para acceder a calendario, correos o aplicaciones de terceros.
  • Conectores de ChatGPT – integraciones con servicios como Gmail o GitHub para incorporar información relevante de forma específica (más sobre Conectores).

Los usuarios pueden iniciar sesión ellos mismos en sitios web y así permitir al agente un acceso más amplio. La IA decide entonces de forma autónoma qué herramienta tiene más sentido para cada paso, por ejemplo acceso por API para datos del calendario, análisis basado en texto de grandes volúmenes de datos o interacción visual con interfaces web complejas.

Todas las acciones se ejecutan en un entorno aislado y virtual que mantiene el contexto a través de distintas herramientas. Así, incluso con interrupciones o nuevas instrucciones, el estado del trabajo se conserva en todo momento.

Ejemplos de uso en el día a día y en el trabajo

Las nuevas capacidades elevan la utilidad de ChatGPT a un nuevo nivel, tanto en lo personal como en lo profesional. Aquí algunos casos típicos de uso:

  • Conversión de capturas de pantalla o dashboards en presentaciones editables
  • Reprogramación y reserva automática de reuniones
  • Actualización de datos financieros en hojas de cálculo sin perder el formato
  • Planificación y reserva de viajes o eventos
  • Búsqueda de especialistas y reserva de citas

La IA puede ejecutar tareas en tiempo real, conectarse con apps, crear automáticamente informes recurrentes e informar a los usuarios mediante notificación de la app en cuanto la tarea se haya completado.

Resultados de benchmarks y datos de rendimiento

El rendimiento del ChatGPT Agent se ha demostrado de forma contundente en distintos benchmarks y pruebas realistas:

  • En el exigente Humanity’s Last Exam, el modelo alcanzó un nuevo mejor resultado (SOTA) de 41,6 en la puntuación pass@1, con hasta 44,4 en ejecución en paralelo.

Humanity’s Last Exam

  • En el benchmark FrontierMath, que incluye tareas de matemáticas de nivel experto, el agente logra con uso de herramientas una precisión del 27,4% y supera claramente a modelos anteriores.

FrontierMath

  • En benchmarks cercanos a la práctica como DSBench (análisis de datos), SpreadsheetBench (edición de hojas de cálculo) y BrowseComp (investigación web), el ChatGPT Agent supera tanto a otras soluciones de IA como a valores de referencia humanos en numerosos casos. Por ejemplo, el agente alcanza al editar tablas .xlsx en LibreOffice una puntuación del 45,5%, mientras que Copilot en Excel se queda en el 20,0%.

SpreadsheetBench

  • También en tareas complejas del ámbito de la banca de inversión, el agente muestra resultados significativamente mejores que los modelos anteriores.

Investment Banking Modeling Tasks

  • En la prueba WebArena para tareas web reales, el agente también obtiene mejores resultados que sus predecesores.

WebArena

Todos los benchmarks, la metodología, así como mucha más información y vídeos, se documentan en detalle en la publicación en inglés de OpenAI.

Activación y uso

Las nuevas funciones de agente se pueden activar en ChatGPT para suscriptores Pro, Plus– y Team directamente desde el menú desplegable “Tools” en el Composer. El uso es muy sencillo: describid la tarea, elegid el modo agente y ChatGPT arrancará con una ejecución paso a paso visible. Si hace falta, podéis retomar el control en cualquier momento.

Tras la autenticación, también se pueden usar conectores para, por ejemplo, resumir vuestra bandeja de entrada o evaluar automáticamente entradas del calendario. Las tareas recurrentes se pueden programar directamente, por ejemplo para informes semanales.

Medidas de seguridad y protección de datos

Con el mayor margen de actuación llegan nuevos riesgos. El ChatGPT Agent trabaja directamente con datos del usuario, por ejemplo mediante conectores o tras iniciar sesión en sitios web. Por ello, los mecanismos de seguridad existentes de la vista previa de Operator se han ampliado de forma integral:

  • Confirmación explícita del usuario antes de cada acción con impacto en el mundo real (p. ej., finalizar compras).
  • Supervisión activa (“Watch Mode”), por ejemplo al enviar correos electrónicos.
  • Mitigación proactiva de riesgos: acciones de alto riesgo como transferencias bancarias se rechazan de forma categórica.
  • Protección contra Prompt Injection: el modelo está entrenado para detectar y bloquear intentos de manipulación, por ejemplo mediante instrucciones ocultas en páginas web.
  • Protección de datos: con un clic se pueden borrar todos los datos del navegador y finalizar sesiones activas en sitios web. En sesiones de “Takeover” no se guardan ni se procesan entradas sensibles como contraseñas.
  • Seguridad biológica y química: el agente se trata como “High Biological and Chemical capabilities” según el Preparedness Framework de OpenAI y cuenta con los mecanismos de seguridad más completos hasta la fecha, incluido entrenamiento de rechazo para usos de doble uso (dual-use) y supervisión constante.

OpenAI trabaja estrechamente con expertos externos de investigación, seguridad y biodefensa para mejorar continuamente las medidas de protección. También se ha puesto en marcha un programa de bug bounty para corregir vulnerabilidades lo antes posible. Los detalles de la arquitectura de seguridad se encuentran en la System Card de OpenAI.

Disponibilidad y cuotas

El despliegue empieza desde ya para suscriptores Pro, Plus y Team. Los usuarios Pro reciben 400 mensajes al mes; el resto de suscripciones de pago, 40 mensajes mensuales, con la posibilidad de uso adicional mediante paquetes de créditos. El acceso para empresas e instituciones educativas llegará en las próximas semanas. En la Unión Europea y Suiza el servicio todavía no está disponible, pero está prevista su introducción.

La vista previa de Operator seguirá accesible unas semanas más, pero después se descontinuará. La función Deep Research sigue pudiéndose seleccionar desde el desplegable del Composer.

Limitaciones & desarrollo en curso

El ChatGPT Agent se encuentra al inicio de su desarrollo. Aunque ya puede encargarse de tareas amplias, siguen siendo posibles errores. La función para crear presentaciones está actualmente en fase beta y, en casos puntuales, puede mostrar formatos sencillos. Al exportar, ocasionalmente puede haber diferencias entre la vista previa y el archivo exportado. La edición de presentaciones subidas todavía no es posible, pero se espera en próximas versiones.

OpenAI trabaja de forma continua en mejoras de eficiencia, flexibilidad y facilidad de uso. El objetivo es equilibrar de manera óptima el control del usuario y la automatización para hacer que el ChatGPT Agent sea lo más seguro posible y, al mismo tiempo, versátil.


Publicado

en

por