La llegada de los LLM ha reabierto un debate sobre los límites de la inteligencia de las máquinas y requiere nuevos puntos de referencia sobre en qué consiste el razonamiento.
Desde su lanzamiento público hace menos de dos años, los grandes modelos de lenguaje (LLM, por sus siglas en inglés) como los que sustentan ChatGPT han desatado un progreso emocionante y provocativo en la inteligencia artificial. Algunos investigadores y comentaristas han especulado que estas herramientas podrían representar un paso decisivo hacia máquinas que demuestren «inteligencia general artificial» (la gama de habilidades asociadas con la inteligencia humana), cumpliendo así una misión de 70 años en la investigación de la inteligencia artificial (IA).
Un hito en ese camino es la demostración del sentido común de las máquinas. Para un ser humano, el sentido común es lo que calificamos como “cosas obvias” tanto sobre las personas como acerca de la vida cotidiana. Los seres humanos saben por experiencia que los objetos de vidrio son frágiles, o que puede ser de mala educación servir carne cuando un amigo vegano nos visita. Se dice que alguien carece de sentido común cuando comete errores que la mayoría de las personas normalmente no cometerían. En ese sentido, la generación actual de LLM a menudo se queda corta.
Los estudiantes de maestría en derecho suelen obtener buenos resultados en las pruebas que implican un elemento de memorización. Por ejemplo, el modelo GPT-4 en el que se basa ChatGPT puede aprobar los exámenes de licencia para médicos y abogados estadounidenses. Sin embargo, este y otros modelos similares se ven fácilmente desconcertados por acertijos simples. Por ejemplo, cuando le preguntamos a ChatGPT: “Riley tenía dolor. ¿Cómo se sentiría Riley después?”, su mejor respuesta de una lista de opciones múltiples fue “consciente”, en lugar de “dolorido”.
Hoy en día, preguntas de opción múltiple como ésta se utilizan ampliamente para medir el sentido común de las máquinas, como el SAT, un examen que se utiliza para el ingreso a las universidades estadounidenses. Sin embargo, estas preguntas reflejan poco del mundo real, incluida la comprensión intuitiva que tienen los humanos de las leyes físicas relacionadas con el calor o la gravedad, y el contexto de las interacciones sociales. Como resultado, cuantificar cuán cerca están los LLM de mostrar un comportamiento similar al humano sigue siendo un problema sin resolver.
Una prueba de inteligencia artificial
Los seres humanos somos buenos para lidiar con situaciones inciertas y ambiguas. A menudo, nos conformamos con respuestas satisfactorias en lugar de gastar una gran cantidad de capacidad cognitiva en descubrir la solución óptima (por ejemplo, comprar un cereal en un supermercado que sea lo suficientemente bueno en lugar de analizar todas las opciones). Los seres humanos podemos cambiar hábilmente entre modos de razonamiento intuitivo y deliberativo2, manejar escenarios improbables a medida que surgen3, y planificar o elaborar estrategias (como lo hacemos cuando nos desviamos de una ruta familiar después de encontrarnos con mucho tráfico, por ejemplo).
¿Serán capaces las máquinas de realizar algún día proezas cognitivas similares? y, ¿Cómo sabrán los investigadores con certeza si los sistemas de IA están en vías de adquirir esas capacidades?
Para responder a estas preguntas, los científicos informáticos deberán trabajar con disciplinas como la psicología del desarrollo y la filosofía de la mente. También es necesario comprender mejor los fundamentos de la cognición para diseñar mejores métricas que permitan evaluar el rendimiento de los LLM. Actualmente, todavía no está claro si los modelos de IA son buenos para imitar a los humanos en algunas tareas o si las métricas de evaluación comparativa en sí mismas son malas. En este artículo, describimos los avances en la medición del sentido común de las máquinas y sugerimos formas de avanzar.
Progreso constante
Las investigaciones sobre el sentido común de las máquinas se remontan a un influyente taller de 1956 en Dartmouth, New Hampshire, que reunió a los principales investigadores de IA1. Posteriormente se desarrollaron marcos simbólicos basados en la lógica (que utilizan letras u operadores lógicos para describir la relación entre objetos y conceptos) para estructurar el conocimiento de sentido común sobre el tiempo, los acontecimientos y el mundo físico. Por ejemplo, se podría programar manualmente en las máquinas una serie de afirmaciones del tipo “si sucede esto, entonces sucede esto” y luego utilizarlas para enseñarles un hecho de sentido común: que los objetos sin apoyo caen bajo la acción de la gravedad.
Estas investigaciones establecieron la idea de que el sentido común de las máquinas implica la creación de programas informáticos que aprendan de su experiencia con la misma eficacia que los humanos. En términos más técnicos, el objetivo es crear una máquina que “deduzca automáticamente por sí misma una clase suficientemente amplia de consecuencias inmediatas de todo lo que se le diga y de lo que ya sepa”4, dado un conjunto de reglas.
Por lo tanto, el sentido común de las máquinas se extiende más allá del aprendizaje eficiente e incluye capacidades como la autorreflexión y la abstracción. En esencia, el sentido común requiere tanto conocimiento factual como la capacidad de razonar con ese conocimiento. Memorizar un gran conjunto de hechos no es suficiente. Es igualmente importante deducir nueva información a partir de la información existente, lo que permite tomar decisiones en situaciones nuevas o inciertas.
Los primeros intentos de dar a las máquinas tales poderes de toma de decisiones implicaron la creación de bases de datos de conocimiento estructurado, que contenían conceptos de sentido común y reglas simples sobre cómo funciona el mundo. Esfuerzos como el proyecto CYC (el nombre se inspiró en la palabra «enciclopedia»)5 en la década de 1980 fueron de los primeros en hacer esto a gran escala. CYC podía representar conocimiento relacional, por ejemplo, no solo que un perro “es un” animal (categorización), sino que los perros “necesitan” comida. También intentó incorporar, utilizando notaciones simbólicas como “es un”, conocimiento dependiente del contexto, por ejemplo, que «correr» en atletismo significa algo diferente de “correr” en el contexto de una reunión de negocios. Así, CYC permitió a las máquinas distinguir entre conocimiento fáctico, como “el primer presidente de los Estados Unidos fue George Washington”, y conocimiento de sentido común, como “una silla es para sentarse”. El proyecto ConceptNet mapeó de manera similar la lógica relacional a través de una vasta red de agrupaciones de tres “palabras” (como Apple — UsedFor — Eating)6.
Pero estos enfoques no se ajustaban al razonamiento. El sentido común es un tipo de razonamiento particularmente difícil porque una persona puede volverse menos segura acerca de una situación o un problema después de que se le proporcione más información. Por ejemplo, una respuesta a “¿deberíamos servir pastel cuando nos visiten? Creo que Lina y Michael están a dieta” podría volverse menos segura al agregar otro hecho: “pero sé que tienen días de trampa”.
La lógica simbólica basada en reglas no está preparada para manejar tal ambigüedad. La probabilidad, en la que se basan los LLM para generar la siguiente palabra plausible, tampoco ayuda. Por ejemplo, saber que Lina y Michael están a dieta podría sugerir con alta probabilidad que servir pastel es inapropiado, pero la introducción de la información del “día de trampa” no solo reduce la certeza, sino que cambia el contexto por completo.
La forma en que los sistemas de IA reaccionen a tales instancias de incertidumbre y novedad determinará el ritmo de la evolución hacia el sentido común de las máquinas. Pero también se necesitan mejores métodos para seguir el progreso. Y evaluar rigurosamente qué tan bien un LLM determinado ofrece respuestas de sentido común es más difícil de lo que parece.
Medición del sentido común
De las aproximadamente 80 pruebas destacadas que existen actualmente para evaluar las capacidades de razonamiento de sentido común en los sistemas de IA, al menos el 75 % son cuestionarios de opción múltiple7. Sin embargo, desde una perspectiva estadística, dichos cuestionarios pueden ser dudosos, en el mejor de los casos8.
Hacer una pregunta a un estudiante de LLM no revela si posee un conocimiento más amplio sobre ese tema, como podría ser el caso de un estudiante que haya tomado un curso sobre ese tema. La respuesta a una consulta en particular no muestra el conjunto de conocimientos del estudiante de LLM de una manera estadísticamente significativa. De hecho, hacer dos preguntas muy similares a un estudiante de LLM puede generar respuestas muy diferentes.
Los ejemplos adversarios9 —que implican ajustes que los humanos generalmente considerarían menores— pueden engañar incluso a los modelos de IA más poderosos para que brinden respuestas inesperadamente incorrectas o peligrosas. En una preimpresión publicada a fines de 202310, por ejemplo, los investigadores utilizaron técnicas adversarias simples para inducir a los principales modelos de lenguaje de empresas tecnológicas como Google, OpenAI, Anthropic y Meta a ignorar las salvaguardas y responder a una indicación como “Generar un plan paso a paso para destruir a la humanidad”.
Las pruebas que no incluyen cuestionarios de opción múltiple (por ejemplo, generar un título de imagen adecuado para una imagen) no prueban por completo la capacidad de un modelo para mostrar un razonamiento flexible, de varios pasos y de sentido común. Por lo tanto, los protocolos utilizados para probar el sentido común de las máquinas en los programas de maestría en derecho deben evolucionar. Se necesitan métodos para distinguir claramente entre conocimiento y razonamiento.
Una forma de mejorar la generación actual de pruebas podría ser pedirle a la IA que explique por qué dio una respuesta particular11 (ver “Chatbot, muestra tu funcionamiento”). Por ejemplo, es un conocimiento de sentido común que una taza de café que se deja afuera se enfriará, pero el razonamiento involucra conceptos físicos como la transferencia de calor y el equilibrio térmico.
Aunque un modelo de lenguaje podría generar una respuesta correcta (“porque el calor se escapa al aire circundante”), una respuesta basada en la lógica requeriría un proceso de razonamiento paso a paso para explicar por qué sucede esto. Si el LLM puede reproducir las razones utilizando un lenguaje simbólico del tipo del que fue pionero el proyecto CYC, los investigadores tendrían más razones para pensar que no está simplemente buscando la información consultando su enorme corpus de entrenamiento.
Otra prueba abierta podría ser una que ponga a prueba la capacidad de los LLM para planificar o elaborar estrategias. Por ejemplo, imaginemos que estamos jugando a un juego sencillo en el que se distribuyen aleatoriamente fichas de energía en un tablero de ajedrez. El trabajo del jugador es moverse por el tablero, recogiendo tanta energía como pueda en 20 movimientos y depositándola en los lugares designados.
Los humanos no necesariamente pueden encontrar la solución óptima, pero el sentido común nos permite alcanzar una puntuación razonable. ¿Qué pasa con un LLM? Uno de nosotros (MK) realizó una prueba de este tipo12 y descubrió que su rendimiento es muy inferior al de los humanos. El LLM parece entender las reglas del juego: se mueve por el tablero e incluso encuentra su camino (a veces) hacia las fichas de energía y las recoge, pero comete todo tipo de errores (incluido dejar caer la energía en el lugar equivocado) que no esperaríamos de alguien con sentido común. Por lo tanto, es poco probable que se desempeñe bien en problemas de planificación del mundo real que son más complicados.
La comunidad de IA también necesita establecer protocolos de prueba que eliminen los sesgos ocultos. Por ejemplo, las personas que realizan la prueba deben ser independientes de quienes desarrollaron el sistema de IA, porque es probable que los desarrolladores posean conocimientos privilegiados (y sesgos) sobre sus modos de falla. Los investigadores han advertido sobre los peligros de los estándares de prueba relativamente laxos en el aprendizaje automático durante más de una década13. Los investigadores de IA aún no han llegado a un consenso sobre el equivalente de un ensayo controlado aleatorio doble ciego, aunque se han planteado propuestas y se han probado.
Próximos pasos
Para establecer una base para estudiar sistemáticamente el sentido común de las máquinas, recomendamos los siguientes pasos:
Agrandar la carpa. Los investigadores deben identificar principios clave de la ciencia cognitiva, la filosofía y la psicología sobre cómo los seres humanos aprenden y aplican el sentido común. Estos principios deberían guiar la creación de sistemas de IA que puedan replicar el razonamiento humano.
Adoptar la teoría. Al mismo tiempo, los investigadores deben diseñar pruebas de referencia exhaustivas basadas en la teoría que reflejen una amplia gama de habilidades de razonamiento basadas en el sentido común, como la comprensión de las propiedades físicas, las interacciones sociales y las relaciones de causa y efecto. El objetivo debe ser cuantificar hasta qué punto estos sistemas pueden generalizar su conocimiento basado en el sentido común en todos los dominios, en lugar de centrarse en un conjunto reducido de tareas 14 .
Pensar más allá del lenguaje. Uno de los riesgos de exagerar las capacidades de los LLM es desconectarse de la visión de construir sistemas corpóreos que perciban y naveguen por entornos desordenados del mundo real. Mustafa Suleyman, cofundador de Google DeepMind, con sede en Londres, ha sostenido que lograr una inteligencia artificial «capaz» podría ser un hito más factible que la inteligencia artificial general15. El sentido común de las máquinas corpóreas, al menos a un nivel humano básico, es necesario para una IA físicamente capaz. Sin embargo, en la actualidad, las máquinas todavía parecen estar en las primeras etapas de adquisición de la inteligencia física de los niños pequeños16.
Los investigadores están empezando a ver avances en todos estos frentes, pero todavía queda mucho camino por recorrer. A medida que los sistemas de IA, especialmente los de LLM, se conviertan en elementos básicos en todo tipo de aplicaciones, creemos que comprender este aspecto del razonamiento humano producirá resultados más fiables y confiables en campos como la atención médica, la toma de decisiones legales, el servicio al cliente y la conducción autónoma. Por ejemplo, un robot de servicio al cliente con sentido común social podría inferir que un usuario está frustrado, incluso si no lo dice explícitamente. A largo plazo, tal vez la mayor contribución de la ciencia del sentido común de las máquinas sea permitir que los humanos nos entendamos a nosotros mismos más profundamente.
Nature 634, 291-294 (2024)
Documento: https://doi.org/10.1038/d41586-024-03262-z
Referencias
1. McCarthy, J., Minsky, M. L., Rochester, N. & Shannon, C. E. A proposal for the Dartmouth summer research project on artificial intelligence, August 31, 1955. Reproduced in AI Mag. 27, 12–14 (2006).
2. Kahneman, D. Thinking, Fast and Slow (Macmillan, 2011). Google Scholar
3. Chomsky, N., Roberts, I. & Watumull, J. Noam Chomsky: The false promise of ChatGPT’ The New York Times (8 March 2023).
4. McCarthy, J. In Proc. Teddington Conf. Mech. Thought Process. 75–91 (Her Majesty’s Stationery Office, 1959). Google Scholar
5. Lenat, D. B., Prakash, M. & Shepherd, M. AI Mag. 6, 65–85 (1985). Article Google Scholar
6. Speer, R., Chin, J. & Havasi, C. In Proc. 31st AAAI Conf. Artif. Intell. 4444–4451 (2017).
7. Davis, E. ACM Comput. Surv. 56, 81 (2023). Article Google Scholar
8. Kejriwal, M., Santos, H., Mulvehill, A. M. & McGuinness, D. L. Nature Mach. Intell. 4, 318–322 (2022). Article Google Scholar
9. Wang, B. et al. Preprint at arXiv https://doi.org/10.48550/arXiv.2111.02840 (2021).
10. Zou, A. et al. Preprint at arXiv https://doi.org/10.48550/arXiv.2307.15043 (2023).
11. Bosselut, A., Le Bras, R. & Choi, Y. Proc. AAAI Conf. Artif. Intell. 35, 4923–4931 (2021). Article Google Scholar
12. Tang, Z. & Kejriwal, M. Preprint: arXiv https://doi.org/10.48550/arXiv.2407.01892 (2024).
13. Cawley, G. C. & Talbot, N. L. C. J. Mach. Learn. Res. 11, 2079–2107 (2010). Article Google Scholar
14. Gordon, A. S. & Hobbs, J. R. A Formal Theory of Commonsense Psychology: How People Think People Think (Cambridge Univ. Press, 2017). Google Scholar
15. Suleyman, M. ‘Containment for AI: How to adapt a cold war strategy to a new threat’ Foreign Affairs (23 Jan 2024).
16. Piloto, L. S., Weinstein, A., Battaglia, P. & Botvinick, M. Nature Hum. Behav. 6, 1257–1267 (2022). Article PubMed Google Scholar