La inteligencia artificial ya puede pensar como un ser humano: ¿Y ahora?
Open AI presentó GPT o1, que se destaca no solo por su capacidad de razonamiento y aprendizaje sino también por "meditar" antes de responder
OpenAI presentó su nuevo modelo de inteligencia artificial, llamado o1, que promete superar los problemas comunes de razonamiento evidenciados por los sistemas generativos gracias a su capacidad para realizar autoverificaciones. Según la compañía, el nuevo modelo se destaca por "pensar" antes de responder, mejorando su habilidad para "meditar" antes de emitir una respuesta. Puede descomponer los grandes problemas en pequeños pasos e identificar cuándo acierta o se equivoca en uno de ellos. Y cuando se le otorga más tiempo para procesar, o1 puede planificar y ejecutar una serie de acciones que le permitan sintetizar resultados de diversas subtareas.
En su página web, Open AI recomienda estas capacidades de razonamiento mejoradas a todo aquel que se enfrente con problemas complejos en lo que respecta a ciencia, codificación, matemáticas y campos similares.
¿Cómo puede pensar una máquina?
Esa es la primera pregunta que seguramente se haga cualquier ser humano. ¿De verdad piensa como nosotros? Si hilamos finamente los tecnicismos, GPT o1 aprende como nosotros y también razona como nosotros. Esto fue confirmado por Noam Brown, investigador de OpenAI, quien a través de una serie de publicaciones en X confirmó que el modelo fue entrenado mediante aprendizaje por refuerzo o reinforcement learning. Se trata de una técnica que le permite a la máquina aprender a través de un esquema de "premios y castigos" para poder accionar en diferentes entornos y determinar qué estrategia es la más adecuada.
Este enfoque mejora sus respuestas al recibir recompensas cuando acierta y penalizaciones cuando comete errores. Para ir más allá, Brown destacó tanto la inclusión de un novedoso algoritmo como la incorporación de un conjunto de datos de "razonamiento" diseñado específicamente para optimizar sus capacidades.
Ahora, quizás muchos estén familiarizados con lo explicado. Y deberían, ya que el aprendizaje por refuerzo está inspirado en la psicología conductista.
Teoría del reforzamiento
Hay que remontarnos a principios del siglo XX, con B. F. Skinner, principal exponente del conductismo. En la década de 1930, el psicólogo comenzó a realizar una serie de experimentos, utilizando dispositivos como la "caja de Skinner", donde podía observar cómo ratas y palomas aprendían a realizar ciertas acciones para recibir recompensas (refuerzos) o evitar castigos. Luego concluyó que las consecuencias de una acción influyen significativamente en la probabilidad de que esa acción se repita en el futuro. La teoría, pues, se basa en dos tipos de refuerzo:
+ Refuerzo Positivo. Se refiere a la introducción de un estímulo agradable tras un comportamiento, lo que aumenta la probabilidad de que se repita.
+ Refuerzo Negativo. Implica la eliminación de un estímulo desagradable como resultado de un comportamiento, también aumentando la probabilidad de que se repita.
Skinner cambió completamente la forma en que se entendía tanto el aprendizaje como el comportamiento humano y actualmente sus ideas se pueden ver plasmadas en herramientas para la educación, la terapia y la investigación. Tras esta explicación, volvamos al tema principal.
Pruebas de pensamiento autónomo
Mark Chen, vicepresidente de investigación de OpenAI, realizó una demostración para la revista Wired sobre la capacidad del nuevo modelo de inteligencia artificial para resolver problemas.
Entre los desafíos abordados se incluyeron una pregunta de química avanzada y un complejo rompecabezas matemático: "Una princesa tiene la edad que tendrá el príncipe cuando la princesa tenga el doble de la edad que tenía el príncipe cuando la edad de la princesa era la mitad de la suma de sus edades actuales. ¿Cuál es la edad del príncipe y de la princesa?". La respuesta correcta es que el príncipe tiene 30 años y la princesa tiene 40. Chen explicó luego que el modelo "está aprendiendo a pensar de manera autónoma en vez de imitar el razonamiento humano, como lo hacen los modelos de lenguaje convencionales".
OpenAI aseguró que su nuevo sistema presenta mejoras significativas en varios campos, como la codificación, la matemática, la física, la biología y la química. En el American Invitational Mathematics Examination (AIME), un examen dirigido a estudiantes avanzados de matemáticas, GPT 4o resolvió solo el 12% de los problemas, mientras que o1 alcanzó un 83% de aciertos, según datos de la empresa.
¿Deberíamos asustarnos?
Para que nos gobiernen las máquinas todavía falta, ya que esta IA tiene bastantes carencias. El nuevo modelo de OpenAI es más lento que GPT 4o y no siempre obtiene mejores resultados debido a que no puede realizar búsquedas en Internet ni procesar imágenes o audio. Su única gran característica es el razonamiento general, una ventaja clave frente a otros modelos.
El desarrollo de capacidades de razonamiento en los modelos de lenguaje viene siendo un tema de interés en la investigación, con competidores como Google, que trabaja en proyectos similares como AlphaProof. Si bien este sistema, lanzado en julio, también aprende por refuerzo para resolver problemas matemáticos complejos, Chen destacó que OpenAI consiguió construir un modelo más generalizado capaz de razonar en múltiples dominios.
Diversos expertos en el área advirtieron sobre las limitaciones de estos sistemas, así como también acerca de la importancia de efectuar un entrenamiento cuidadoso. Aunque el razonamiento de los modelos mejora, aún persisten algunos desafíos, como las alucinaciones y la precisión para brindar respuestas.
Yoon Kim, profesor adjunto del MIT, expresó sus dudas sobre el proceso de razonamiento de los modelos actuales. Aunque algunos pueden realizar razonamientos paso a paso, todavía existen diferencias claves con el pensamiento humano. "Estos sistemas podrían tomar decisiones que afectan a muchísimas personas", alertó Kim y añadió que la pregunta crucial es si debemos confiar "en la forma en que un modelo computacional toma decisiones".