En la siguiente entrevista, Bob McGrew, responsable del equipo de investigación en OpenAI, habla con su equipo sobre la serie de modelos o1 y o1 Mini presentada recientemente. En ella comparten perspectivas muy interesantes sobre el desarrollo, el funcionamiento y las particularidades de estos nuevos modelos.
Bob: ¿Qué es exactamente o1?
Desarrollador: Con la nueva serie o1 iniciamos una familia de modelos que se diferencia en su enfoque respecto a versiones anteriores, como por ejemplo GPT-4. o1 es, en concreto, un modelo de “razonamiento” (“Reasoning”), lo que significa que reflexiona más sobre una pregunta antes de responder. El objetivo es ofrecer respuestas de mayor calidad. Ahora mismo tenemos dos modelos: o1 Preview, que permite echar un primer vistazo a la nueva dirección, y o1 Mini, una versión más compacta y rápida.
Bob: Suena genial. Pero ¿qué entendéis exactamente por “Reasoning”?
Desarrollador: Una forma sencilla de explicar el razonamiento es compararlo con distintos tipos de tareas. Hay preguntas cuya respuesta se sabe al instante, por ejemplo: “¿Cuál es la capital de Italia?” — Roma, no hace falta pensarlo mucho. En tareas más complejas, como redactar un plan de negocio o resolver un acertijo, en cambio, se necesita tiempo para reflexionar. Aquí la idea es transformar tiempo en mejores resultados, y eso es precisamente lo que permite o1 mediante un razonamiento más profundo.
Bob: ¿Cuánto tiempo lleváis trabajando en este modelo?
Desarrollador: Ya bastante. Al principio nos inspiraron muchísimo los resultados de AlphaGo y nos centramos a fondo en el Deep Reinforcement Learning. Pero con el tiempo nos dimos cuenta de que, combinando el aprendizaje por refuerzo con enfoques de aprendizaje supervisado, podíamos llegar aún más lejos. Hubo muchos pequeños hitos y, al final, todos esos esfuerzos desembocaron en el desarrollo de o1.
Bob: ¿Hubo durante ese tiempo algún “momento eureka”?
Desarrollador: Sí, sin duda. Uno de los momentos clave fue cuando entrenamos el modelo con más capacidad de cómputo y observamos por primera vez que no solo generaba razonamientos coherentes, sino que además empezaba realmente a formular cadenas complejas de reflexión. Otro gran momento fue cuando descubrimos que, mediante aprendizaje por refuerzo, el modelo podía desarrollar y perfeccionar por sí mismo cadenas de pensamiento, en lugar de apoyarse en razonamientos humanos predefinidos. Fue un auténtico punto de inflexión.
Bob: Seguro que también habéis tenido que superar algunos obstáculos por el camino. ¿Cuáles fueron los mayores retos?
Desarrollador: Entrenar modelos grandes es increíblemente exigente. Hay innumerables factores que pueden salir mal y, la verdad, sentimos que estamos constantemente intentando mantener los modelos en esa delgada línea entre el éxito y el fracaso. Imaginaos que estáis guiando un cohete a la Luna: un pequeño ángulo que no encaje y falláis el objetivo. Aquí pasa algo parecido: encontrar el equilibrio correcto es extremadamente difícil.
Bob: Suena a muchísima paciencia y trabajo duro. ¿Hubo pruebas concretas con las que pusisteis a prueba los modelos?
Desarrollador: Sí, durante un tiempo estuve preguntando una y otra vez: “¿Cuántas horas hay en un año?”. Suena simple, pero modelos más antiguos como GPT-3 fallaban a menudo. Después de un año de trabajo intenso, o1 por fin dominó este tipo de preguntas de forma fiable. ¡Casi habría preferido que lo hubiéramos hardcodeado manualmente!
Bob: ¿Cómo utilizáis vosotros el modelo en el día a día?
Desarrollador: Yo lo uso mucho para programar. Con o1 puedo centrarme en definir los problemas, en lugar de escribir yo mismo el código. También ayuda muchísimo en depuración: le paso el mensaje de error al modelo y enseguida me propone enfoques sensatos sobre qué intentar a continuación.
Desarrollador: Para mí es un compañero estupendo para hacer brainstorming. Ayuda a dar estructura a ideas poco claras y a desarrollar distintos enfoques de solución.
Bob: También habéis desarrollado o1 Mini. ¿Cuál fue la motivación detrás de eso?
Desarrollador: o1 Mini pretende llevar la filosofía de o1 a un público más amplio. Es mucho más barato de usar y más rápido. Aunque no tiene todo el alcance de conocimiento de o1 Preview, mantiene el foco en un razonamiento potente. El objetivo era crear una solución asequible pero inteligente que, aun así, ofreciera muchas de las fortalezas del modelo grande.
Bob: Habéis hablado mucho de retos técnicos. ¿Qué os motiva a seguir?
Desarrollador: A mí, personalmente, me fascina enormemente cómo se expresa la inteligencia en distintas formas. Con o1 sentamos la base para modelos que puedan pensar sobre problemas durante mucho más tiempo y con más profundidad: no solo minutos u horas, sino quizá algún día meses o años. Es una idea que me resulta muy estimulante.
Desarrollador: Me encanta cuando la tecnología mejora el día a día de la gente. Si nuestros modelos, gracias al razonamiento, pueden resolver problemas prácticos de verdad, entonces habremos conseguido algo grandioso.
Bob: Noto la pasión en todos vosotros. ¿Hay algo más que queráis transmitir a los oyentes?
Desarrollador: Cada uno de nosotros ha puesto mucho corazón en este proyecto. Aunque aquí hablemos de algoritmos y hardware, al final siempre son las personas y la colaboración lo que hace posibles innovaciones así. Eso no hay que olvidarlo nunca.
Bob: Un cierre precioso. Muchas gracias por dedicar vuestro tiempo y enhorabuena por el lanzamiento de o1.
Desarrollador: ¡Gracias, Bob!
Podéis encontrar la entrevista completa con el equipo de desarrollo en YouTube, en inglés, en el siguiente enlace: Entrevista sobre la nueva serie de modelos o1

