Los Modelos de Lenguaje de Gran Tamaño (LLMs), como GPT-4, LLaMA, Gemini y ChatGPT, han revolucionado el campo del procesamiento y generación de lenguaje natural, convirtiéndose en herramientas valiosas para estudiantes y académicos.
Un modelo de lenguaje de gran tamaño o large language model (LLM) es un tipo de inteligencia artificial que puede procesar y producir lenguaje natural. Aprende de una cantidad inmensa de información y descubre patrones y reglas de lenguaje de ese texto (Microsoft AI Tour).
Sin embargo, es esencial separar los hechos de los mitos en torno a sus capacidades y limitaciones. A continuación, desmitificamos algunos conceptos erróneos comunes sobre los LLMs, y los aplicamos al contexto de la realización de tesis e investigaciones universitarias.
Mito 1: Los LLMs son infalibles
Si bien los modelos son impresionantes al generar texto similar al humano, es importante reconocer que pueden producir resultados incorrectos o, en algunos casos, sin sentido. Estos resultados, se conocen como «alucinaciones». En esencia, según IBM, las alucinaciones son fenómenos en donde un modelo percibe patrones u objetos que no existen, lo que hace que creen resultados que carecen de sentido o que son inexactos.
Las alucinaciones pueden introducir errores significativos en el trabajo académico, y llevar a conclusiones incorrectas, lo cual afecta la calidad de la investigación. Por ejemplo, basar un argumento -o un análisis-, en información inexacta, generada por un LLM, puede desvirtuar los resultados y disminuir la credibilidad del trabajo.
Hay que tener en cuenta que las alucinaciones ocurren como respuesta a los prompts que se le envían. El prompt es básicamente una instrucción escrita que se le da al modelo para que realice una tarea.
Causas de las alucinaciones en LLMs:
- Divergencia de referencia-fuente: En el entrenamiento de estos algoritmos se emplea mucha información proveniente de diferentes fuentes, sin embargo, pueden inventar información que no está presente en los datos de entrenamiento, lo que lleva a incoherencias y errores fácticos.
- Datos incompletos o contradictorios: Los LLMs se entrenan con grandes cantidades de datos, pero si estos datos son incompletos, contradictorios o contienen sesgos, pueden generar salidas incorrectas.
- Sobreajuste: Si un LLM se entrena con un conjunto de datos demasiado específico, puede ser incapaz de generalizar a nuevos datos y producir resultados irrelevantes o sin sentido.
- Falta de novedad: En algunos casos, pueden simplemente repetir información ya existente en los datos de entrenamiento, en lugar de generar ideas o perspectivas nuevas.
Prompts mal estructurados: Si un prompt no proporciona suficiente información o contexto, el modelo puede terminar por adivinar qué es lo que la persona solicitó y por ende, dar un resultado no deseado o descontextualizado.
Mito 2: Los LLMs eliminan la necesidad de capacitación
Existe la idea errónea de que los Modelos de Lenguaje de Gran Tamaño (LLMs) como ChatGPT pueden eliminar por completo la necesidad de capacitación en metodología de la investigación y en análisis de datos. Aunque son herramientas valiosas que pueden complementar el proceso de aprendizaje, no reemplazan la formación académica y práctica necesaria en estos campos.
Los LLMs no comprenden los fundamentos de la investigación: Si bien los LLMs pueden procesar grandes cantidades de datos y generar texto similar al humano, no tienen una comprensión profunda de los principios y conceptos fundamentales de la investigación, la metodología y el análisis de datos (tales como el trasfondo epistemológico que ordena los procesos metodológicos, las diferencias entre las técnicas de análisis y su relación con los objetivos de investigación, entre otros). La formación en estas áreas proporciona a los investigadores las bases teóricas y las habilidades prácticas necesarias para realizar investigaciones rigurosas y confiables. Es precisamente por esto que se puede ver cómo estos modelos reflejan los mismos sesgos que se han evidenciado en lo que se ha llamado la sobresimplificación en investigación (para conocer más de esto puedes ver el siguiente video: https://www.youtube.com/watch?v=W9Pf0pxbxxQ). Es decir, no son capaces de organizar todo el contenido metodológico de una forma coherente, lo que puede llevar a que sus respuestas mezclen elementos que pueden ser incompatibles.
Los LLMs no fomentan la ética en la investigación: La investigación académica se rige por principios éticos estrictos que garantizan la integridad de los datos, el respeto a los participantes, el reconocimiento de la propiedad intelectual y la responsabilidad social. Estos modelos no tienen la capacidad de comprender ni de aplicar estos principios; la formación en ética de la investigación es esencial para que los investigadores actúen de manera responsable.
Los LLMs no pueden sustituir un proceso completo de análisis: Aunque los LLMs pueden ayudar a interpretar y presentar datos de manera más clara, no pueden sustituir la habilidad del investigador para elegir los métodos estadísticos adecuados, entender las limitaciones de los datos, y realizar un análisis riguroso. Muchas herramientas que ofrecen funcionalidades para analizar datos con inteligencia artificial, generalmente tienen problemas al momento de seleccionar la técnica más adecuada y en muchos casos no hacen la limpieza y preparación de la data automáticamente (tareas como estandarización de valores, búsqueda de errores, limpieza de información, etc, no suelen hacerse automáticamente, sino que deben seguir contextos especificos que el LLM puede no saber por defecto).. Tal es el caso por ejemplo de ChatGPT, en donde es necesario que se le den instrucciones paso a paso sobre qué hacer. Adicionalmente, pueden tener dificultades para interpretar los resultados y darle sentido según un contexto específico dado por el marco teórico de la investigación. De esta forma, el uso de LLMs debe complementarse con una sólida formación en técnicas de análisis de datos para evitar interpretaciones erróneas y asegurar la validez de los resultados.
La idea de que los LLMs reemplazan la formación en investigación, metodología de la investigación y análisis de datos es errada, pues aunque pueden ser herramientas útiles para complementar la formación en estas áreas, no son un sustituto de la enseñanza experta, la práctica y el desarrollo de habilidades críticas. Esto implica, que los investigadores necesitan una formación sólida en los fundamentos de la investigación, la metodología y el análisis de datos, además de desarrollar habilidades críticas y actuar de manera ética y responsable.
Mito 3: Los LLMs son inmunes a los sesgos
Un mito común es que los Modelos de Lenguaje de Gran Tamaño (LLMs) son completamente objetivos y están libres de sesgos. Sin embargo, como ya lo hemos mencionado, esto está lejos de ser cierto. Los modelos, como GPT-4, están entrenados en grandes conjuntos de datos provenientes de diversas fuentes bibliográficas y digitales, las cuales inevitablemente contienen sesgos temporales, culturales, demográficos, lingüísticos, entre muchos otros. Adicionalmente, los modelos al ser entrenados, se pueden configurar con reglas que son propias del dueño del algoritmo, que hacen que respondan de manera particular a ciertas instrucciones y que pueden responder a políticas institucionales con fines específicos. Es por esto que las respuestas que generan estos modelos reflejan -o incluso amplifican- los sesgos presentes al momento del entrenamiento del mismo. Un caso que puede reflejar esto es lo ocurrido con Gemini, el LLM de Google, cuando se observó como sus respuestas al momento de crear imágenes reflejaba limitaciones y formas de responder muy específicas ante ciertos términos. (ver https://www.xataka.com/robotica-e-ia/google-programo-generador-imagenes-gemini-fuera-inclusivo-se-ha-pasado-mucho-raya ).
Otro ejemplo de estos sesgos, puede verse reflejado en la siguiente situación. Si estás realizando una investigación sobre el impacto de la inteligencia artificial en diferentes sectores económicos, es importante revisar y validar las salidas generadas por el LLM. Podría ser que el modelo, entrenado mayoritariamente con datos de economías desarrolladas, subestime o ignore las dinámicas presentes en economías emergentes. Al comparar estos resultados con estudios locales y globales, se puede obtener una visión más equilibrada y precisa.
Para minimizar el impacto de los sesgos en su investigación, los estudiantes deben adoptar varias estrategias:
- Evaluación crítica: Analizar críticamente las respuestas generadas por los LLMs, para buscar posibles sesgos y verificar la información con múltiples fuentes.
- Diversidad de fuentes: Utilizar una variedad de fuentes de datos y perspectivas para contrarrestar posibles sesgos en la información generada por los LLMs.
- Prompts detallados y específicos: Algunas sugerencias para esto es redactar prompts que contengan el contexto del requerimiento de forma clara, que especifique las instrucciones o paso a paso que el modelo debe seguir, que se detalle cual es el resultado deseado y que incluso se indique resultados no deseadaos. Todo esto ayuda a guiar al modelo hacia respuestas más precisas y relevantes, reduciendo la ambigüedad que puede llevar a sesgos.
- Considere el contexto y la intención: Tenga en cuenta el contexto en el que se utiliza el LLM y la intención de la consulta. Los sesgos pueden ser más evidentes en ciertas áreas o cuando se solicitan opiniones o interpretaciones.
- Utilice su propio juicio y experiencia: Recuerde que los LLMs son herramientas, no reemplazos del juicio y la experiencia humana. Combine la información generada por el modelo con su propio conocimiento y análisis para obtener una comprensión más completa y precisa del tema.
Es esencial reconocer y abordar los sesgos inherentes en estos modelos para asegurar la integridad y objetividad de la investigación. Como investigadores, debemos combinar el uso de LLMs con una evaluación crítica y diversificada de las fuentes de información para mitigar los sesgos y producir investigaciones más precisas y equitativas.
Mito 4: Los LLMs pueden realizar cualquier tarea
La idea de que los LLMs son la clave para resolver todos los problemas de investigación es una simplificación excesiva que ignora la complejidad de la investigación académica y el papel fundamental que desempeñan los investigadores humanos. Si bien los LLMs pueden ser herramientas valiosas para la investigación, no son una solución mágica que pueda sustituir el trabajo creativo, el pensamiento crítico y la experiencia de los investigadores humanos. Algunos de los elementos que pueden considerarse en este aspecto son los siguientes:
Conocimiento específico de la materia: Los LLMs están entrenados en grandes cantidades de texto proveniente de Internet y otras fuentes, lo que les permite manejar una variedad de temas de manera superficial. Sin embargo, carecen del conocimiento profundo y especializado necesario para resolver problemas específicos de manera precisa. Por ejemplo, en el contexto de una tesis sobre física cuántica, un modelo podría proporcionar una explicación general de los conceptos, pero puede fallar en los detalles técnicos y en la precisión requerida para un análisis riguroso. Esto puede pasar en investigaciones de tipo analíticas, en donde al momento de requerir al modelo plantear críticas, se evidencia que puede tener problemas al momento de formular sus ideas sobre un contenido específico, incluso dado un criterio específico de análisis.
Comprensión de matices y contextos complejos: Los LLMs pueden tener dificultades para captar y manejar matices en el lenguaje, como el sarcasmo, el humor, o contextos culturales específicos. En una investigación que involucra la interpretación de textos literarios o análisis socioculturales, es crucial entender estos matices, algo que los modelos no siempre pueden hacer de manera efectiva. Por lo tanto, los investigadores deben complementar la información generada por los modelos con su propio análisis y comprensión del contexto.
Optimización para tareas específicas: Cada modelo de IA está diseñado para casos de uso específicos, lo que les permite ofrecer beneficios máximos en contextos particulares. Por ejemplo, LaMda y GPT-3 son ideales para aplicaciones de conversación de IA, mientras que BLOOM se destaca en la traducción automática y la generación de contenido. Ajustar y afinar el modelo para que se adapte a tareas y contextos específicos es crucial para lograr un rendimiento óptimo. No es solo el tamaño del modelo lo que determina su eficacia, sino su capacidad para abordar los requisitos y matices específicos de la tarea en cuestión.
La imagen 1 resume el desempeño que tienen los diferentes modelos en distintas tareas. En las filas se puede observar el nombre de los modelos y en las columnas las diferentes tareas en las que fueron probados (Extracción de información, clasificación de texto, conversaciones, resumen, traducciones y generación de contenido). La intensidad del color indica que tan bueno es el modelo en dicha tarea, siendo un naranja claro un desempeño “algo apropiado”, un naranja moderadamente oscuro “apropiado” y el naranja oscuro “Muy apropiado”
En este caso podemos ver por ejemplo que ChatGPT tiene un desempeño muy bueno en tareas de extracción de información y clasificación de texto, pero su desempeño es bajo en la generación de contenido. Por otro lado, modelos como Bloom son muy buenos en esas tareas donde ChatGPT falla. Finalmente PaLM (un modelo creado por Google), parece ser muy bueno en casi todas las tareas, a excepción de extracción de la información. Es claro, entonces, que cada modelo tiene fortalezas y debilidades muy puntuales, que es importante considerar al momento de usarlos.
Los Modelos de Lenguaje Grande (LLMs) han irrumpido en el panorama de la investigación académica con un potencial sin precedentes para transformar la manera en que se recolecta, analiza y comunica información. Sin embargo, es fundamental abordar las expectativas con cautela y reconocer que estos modelos no son una solución mágica que pueda reemplazar el quehacer fundamental de los investigadores. Para aprovechar al máximo las capacidades de estos modelos en la investigación académica, los investigadores deben combinar estas herramientas con una sólida formación académica, verificación constante de los datos y una comprensión crítica de los resultados generados.
Referencias:
Bilan, M. (2024). LLMs Myths vs Reality: What You Need to Know Before the Invest. Master of Code. Tomado de: https://masterofcode.com/blog/llms-myths-vs-reality-what-you-need-to-know-before-the-invest
IBM. (s.f.). What are AI hallucinations? https://www.ibm.com/topics/ai-hallucinations
Microsoft. (s.f.). Microsoft AI Tour. Large Language Model (LLM). https://microsoft.github.io/Workshop-Interact-with-OpenAI-models/llms/
Un comentario
Excelente información sobre la IA, espero más puedan dar más detalles sobre el tema.