Muchos de los grandes modelos de lenguaje que impulsan los chatbots afirman ser abiertos, pero restringen el acceso al código y a los datos de entrenamiento.
Gigantes tecnológicos como Meta y Microsoft están describiendo sus modelos de inteligencia artificial (IA) como de “código abierto” y no revelan información importante sobre la tecnología subyacente, dicen investigadores que analizaron una serie de modelos populares de chatbots.
Aún no se ha acordado la definición de código abierto en lo que respecta a los modelos de IA, pero sus defensores dicen que la apertura “total” impulsa la ciencia y es crucial para los esfuerzos por hacer que la IA sea responsable . Lo que se considera código abierto probablemente adquiera mayor importancia cuando la Ley de Inteligencia Artificial de la Unión Europea entre en vigor. La legislación aplicará normas menos estrictas a los modelos catalogados como abiertos.
Algunas grandes empresas están cosechando los beneficios de afirmar que tienen modelos de código abierto, mientras intentan “revelar lo menos posible”, dice Mark Dingemanse, científico lingüístico de la Universidad Radboud en Nijmegen, Países Bajos. Esta práctica se conoce como lavado a cielo abierto.
“Para nuestra sorpresa, fueron los pequeños actores, con relativamente pocos recursos, los que hicieron un esfuerzo adicional”, sostiene Dingemanse, quien junto con su colega Andreas Liesenfeld, un lingüista computacional, creó una clasificación que identifica los modelos más y menos abiertos. (ver tabla). Publicaron sus conclusiones el 5 de junio en las actas de la Conferencia ACM de 2024 sobre Equidad, Responsabilidad y Transparencia 1 .
¿Qué tan abierto es el ‘código abierto’?
Dos científicos del lenguaje evaluaron si varios componentes de los modelos de chatbots estaban abiertos (✔), parcialmente abiertos (~) o cerrados (X).
Modelo | código abierto | datos del LLM | pesos LLM | Preimpresión | Interfaz de programación de aplicaciones |
BloomZ (BigScience) | ✔ | ✔ | ✔ | ✔ | ✔ |
OLMo (Allen Institute for AI) | ✔ | ✔ | ✔ | ✔ | ~ |
Mistral 7B-Instruct (Mistral AI) | ~ | X | ✔ | ~ | ✔ |
Orca 2 (Microsoft) | X | X | ~ | ~ | ~ |
Gemma 7B instruct (Google) | ~ | X | ~ | ~ | X |
Llama 3 Instruct (Meta) | X | X | ~ | X | ~ |
El estudio elimina «muchas exageraciones y tonterías en torno al debate actual sobre el código abierto», dice Abeba Birhane, científico cognitivo del Trinity College Dublin y asesor sobre responsabilidad de la IA en la Fundación Mozilla, una organización sin fines de lucro con sede en Mountain View, California.
Definiendo apertura
El término “código abierto” proviene de software, en el que se tiene acceso al código fuente y sin límites en el uso o distribución de un programa. Pero dada la complejidad de los grandes modelos de IA y los enormes volúmenes de datos involucrados, convertirlos en código abierto no es nada sencillo, y los expertos todavía están trabajando para definir la IA de código abierto. Revelar todas las facetas de un modelo no siempre es deseable para las empresas, porque puede exponerlas a riesgos comerciales o legales, afirma Dingemanse. Otros argumentan que publicar modelos con total libertad corre el riesgo de ser utilizados indebidamente.
Pero ser etiquetado como código abierto también puede traer grandes beneficios. Los desarrolladores ya pueden obtener beneficios en materia de relaciones públicas al presentarse como rigurosos y transparentes. Y pronto habrá implicaciones legales. La Ley de IA de la UE, aprobada este año, eximirá a los modelos de uso general de código abierto, hasta un cierto tamaño, de amplios requisitos de transparencia y los comprometerá a obligaciones menores y aún indefinidas. “Es justo decir que el término código abierto adquirirá un peso legal sin precedentes en los países regidos por la Ley de IA de la UE”, dice Dingemanse.
En su estudio, Dingemanse y Liesenfeld evaluaron 40 grandes modelos de lenguaje: sistemas que aprenden a generar texto haciendo asociaciones entre palabras y frases en grandes volúmenes de datos. Todos estos modelos afirman ser de “código abierto” o “abiertos”. La pareja hizo una clasificación de apertura evaluando modelos en 14 parámetros, incluida la disponibilidad de código y datos de entrenamiento, qué documentación se publica y qué tan fácil es acceder al modelo. Para cada parámetro, juzgaron si los modelos están abiertos, parcialmente abiertos o cerrados.
Este enfoque de escala móvil para analizar la apertura es útil y práctico, dice Amanda Brock, directora ejecutiva de OpenUK, una empresa sin fines de lucro con sede en Londres que se centra en la tecnología abierta.
Los investigadores descubrieron que muchos modelos que afirman ser abiertos o de código abierto, incluidos Llama de Meta y Gemma de Google DeepMind, son, de hecho, simplemente “peso abierto”. Esto significa que los investigadores externos pueden acceder y utilizar los modelos entrenados, pero no pueden inspeccionarlos ni personalizarlos. Tampoco pueden entender completamente cómo fueron ajustados para tareas específicas; por ejemplo, utilizando la retroalimentación humana. “No regalas mucho… luego puedes reclamar créditos de apertura”, dice Dingemanse.
Particularmente preocupante, dicen los autores, es la falta de apertura sobre con qué datos se entrenan los modelos. Dicen que alrededor de la mitad de los modelos que analizaron no proporcionan ningún detalle sobre los conjuntos de datos más allá de los descriptores genéricos.
Un portavoz de Google dice que la empresa es “precisa en cuanto al lenguaje” que utiliza para describir los modelos y elige etiquetar su Gemma LLM como abierto en lugar de código abierto. “Los conceptos de código abierto existentes no siempre se pueden aplicar directamente a los sistemas de IA”, agregaron. Microsoft intenta ser “lo más preciso posible sobre lo que está disponible y en qué medida”, afirma un portavoz. “Elegimos hacer que artefactos como modelos, códigos, herramientas y conjuntos de datos estén disponibles públicamente porque las comunidades de desarrolladores e investigadores tienen un papel importante que desempeñar en el avance de la tecnología de IA”. Meta no respondió a una solicitud de comentarios de Nature.
El análisis encontró que los modelos elaborados por empresas y grupos de investigación más pequeños tendían a ser más abiertos que los de sus contrapartes de gran tecnología. Los autores destacan BLOOM, creado gracias a una colaboración internacional, en gran medida académica, como un ejemplo de IA verdaderamente de código abierto.
La revisión por pares está “pasada de moda”
Los artículos científicos que detallan los modelos son extremadamente raros, según descubrieron los autores. La revisión por pares parece haber “casi pasado de moda”, siendo reemplazada por publicaciones en blogs con ejemplos cuidadosamente seleccionados o prepublicaciones corporativas con pocos detalles. Las empresas “pueden publicar un artículo atractivo y llamativo en su sitio web, que parece muy técnico, pero si lo examinas detenidamente, no hay ninguna especificación sobre qué datos se utilizaron en ese sistema”, explica Dingemanse.
Aún no está claro cuántos de estos modelos se ajustarán a la definición de código abierto de la UE. Según la ley, esto se referiría a modelos que se lanzan bajo una licencia “libre y abierta” que, por ejemplo, permite a los usuarios modificar un modelo pero no dice nada sobre el acceso a los datos de entrenamiento. Refinar esta definición probablemente creará “un único punto de presión al que se dirigirán los lobbies corporativos y las grandes empresas”, dice el documento.
La apertura es importante para la ciencia, afirma Dingemanse, porque es esencial para la reproducibilidad. “Si no se puede reproducir, es difícil llamarlo ciencia”, afirma. La única manera que tienen los investigadores de innovar es modificando modelos, y para ello necesitan suficiente información para construir sus propias versiones. No sólo eso, sino que los modelos deben estar abiertos al escrutinio . “Si no podemos mirar el interior para saber cómo se elabora la salchicha, tampoco sabemos si impresionarnos”, afirma Dingemanse. Por ejemplo, podría no ser un logro para un modelo aprobar un examen en particular si fue entrenado en muchos ejemplos de la prueba. Y sin responsabilidad sobre los datos, nadie sabe si se han utilizado datos inapropiados o protegidos por derechos de autor, añade.
Liesenfeld dice que la pareja espera ayudar a sus colegas científicos a evitar “caer en las mismas trampas en las que caímos nosotros” cuando buscamos modelos para usar en la enseñanza y la investigación.