LinuxParty

Inicio desactivadoInicio desactivadoInicio desactivadoInicio desactivadoInicio desactivado
 

Uno de los debates más intensos en el mundo de la inteligencia artificial generativa gira en torno a la eterna disyuntiva: ¿código abierto o cerrado? Este dilema no es solo filosófico o técnico; tiene implicaciones prácticas, especialmente en campos tan críticos como la medicina. Un reciente estudio científico ha arrojado luz sobre esta cuestión enfrentando a algunos de los modelos más conocidos, como Llama 2 de Meta y GPT-4 de OpenAI, en un entorno de prueba médica real.

¿Qué tan bien entienden medicina los modelos de lenguaje?

Investigadores de la Universidad Pepperdine, la Universidad de California en Los Ángeles (UCLA) y UC Riverside evaluaron siete grandes modelos de lenguaje (LLM, por sus siglas en inglés) en una prueba de conocimientos sobre nefrología, el área médica que estudia los riñones. El estudio, publicado en la revista NEJM AI —una extensión del prestigioso New England Journal of Medicine—, se basó en 858 preguntas extraídas del NephSAP, el Programa de Autoevaluación de Nefrología de la Sociedad Americana de Nefrología.

El resultado fue contundente: GPT-4 logró un 73,3% de aciertos, quedando a solo 1,7 puntos del 75% necesario para aprobar como un humano. En cambio, Llama 2 apenas alcanzó el 30,6%, superando ligeramente el nivel de respuestas aleatorias (23,8%). Los demás modelos de código abierto como Vicuña y Falcon tampoco destacaron en el rendimiento.

Por qué GPT-4 y Claude 2 superan al código abierto en medicina

Según los autores, una de las principales razones del bajo rendimiento de los modelos de código abierto es la falta de acceso a datos médicos de calidad. GPT-4 y Claude 2, los modelos de OpenAI y Anthropic respectivamente, fueron entrenados no solo con información pública, sino también con fuentes privadas: libros de texto médicos, artículos revisados por pares y bases de datos especializadas.

Esto da a los modelos cerrados una clara ventaja. “La disponibilidad de datos médicos curados y no públicos seguirá siendo un factor clave para mejorar el rendimiento de los LLM en tareas clínicas”, concluyen los investigadores.

Los autores tuvieron que realizar una preparación de datos considerable para convertir los archivos de texto sin formato de NephSAP en indicaciones que pudieran incorporarse a los modelos de lenguaje. Cada indicación contenía la pregunta en lenguaje natural y las respuestas de opción múltiple. (El conjunto de datos está publicado en HuggingFace para su uso por parte de otros usuarios ).

Un reto técnico: preparar y evaluar a los LLM

El estudio no se limitó a lanzar preguntas. Los investigadores convirtieron manualmente los documentos del NephSAP en prompts en lenguaje natural compatibles con los LLM, cada uno con opciones múltiples de respuesta. Luego, desarrollaron herramientas automáticas para evaluar las respuestas generadas por los modelos, comparándolas con las respuestas correctas.

El enfoque utilizado fue el de "cero disparos" (zero-shot), donde los modelos no reciben ejemplos previos antes de responder. Esta metodología prueba su capacidad de razonamiento contextual y generalización sin entrenamiento adicional.

Iniciativas para cerrar la brecha

A pesar del mal resultado de los modelos abiertos en esta prueba, no todo está perdido. Existen esfuerzos que podrían cambiar el panorama, como:

  • Entrenamiento federado, donde los modelos aprenden en dispositivos locales con datos privados y comparten resultados agregados de forma anónima. Así se protegen los datos sensibles mientras se fortalece el modelo.
  • MedPerf, una iniciativa del consorcio MLCommons, que busca evaluar modelos de IA médica respetando la privacidad de los datos.
  • MedPaLM, el modelo de Google DeepMind, optimizado para responder preguntas médicas y entrenado con datos específicos, como preguntas reales de pacientes en internet.

Además, se está aplicando la técnica de Generación Aumentada por Recuperación (RAG), que permite a los modelos buscar información externa en bases de datos médicas o científicas en tiempo real, mejorando así su capacidad para generar respuestas fiables.

¿El código abierto tiene futuro en IA médica?

Sí. Aunque por ahora GPT-4 lidera claramente en rendimiento, los modelos de código abierto tienen algo que los propietarios de modelos cerrados no ofrecen: transparencia, colaboración y mejora colectiva. Gracias a su naturaleza abierta, Llama 2 y otros LLM pueden beneficiarse de miles de contribuciones externas, mejoras continuas y adaptaciones especializadas.

Con iniciativas como el acceso a datasets curados, la colaboración entre universidades y comunidades tecnológicas, y avances en arquitectura de modelos, el código abierto tiene potencial para cerrar la brecha en campos críticos como la medicina.

No estás registrado para postear comentarios



Redes:



   

 

Suscribete / Newsletter

Suscribete a nuestras Newsletter y periódicamente recibirás un resumen de las noticias publicadas.

Donar a LinuxParty

Probablemente te niegues, pero.. ¿Podrías ayudarnos con una donación?


Tutorial de Linux

Filtro por Categorías