Inteligencia artificial generativa: el progreso y el futuro

Publicado: 13 Septiembre 2023 | Escrito por Javier Orovengua | Correo electrónico | Visto: 863

Durante la última década, se han logrado avances significativos en el campo de la Inteligencia Artificial (IA) y la IA se ha vuelto más omnipresente en nuestra vida diaria. El uso y la adopción generalizados de la IA se pueden atribuir a múltiples factores, incluido el aprendizaje profundo (DL), también conocido como redes neuronales artificiales modernas, la disponibilidad de grandes volúmenes de datos y la potencia informática para entrenar modelos DL. Más recientemente, la IA generativa ha llamado la atención del público en general, gracias a OpenAI y la construcción de modelos de lenguaje grande (LLM) escalables y de alto rendimiento. La IA generativa también se ha utilizado para producir texto, imágenes, vídeos, códigos de programación y música. Existen modelos multimodales que generan imágenes basadas en descripciones de texto (por ejemplo, DALL·E) y viceversa y dichas innovaciones seguirán creciendo con bastante rapidez.

Avances en IA generativa

Durante 2012 se demostró un avance importante en la aplicación de un modelo DL [1] para clasificar imágenes en varios grupos diferentes (ImageNet Large Scale Visual Recognition Challenge 2010). A esto le siguió el uso de DL para tareas de clasificación similares en texto y voz, donde los modelos DL mejoraron significativamente los puntos de referencia previamente establecidos. Estos modelos fueron entrenados para tareas especializadas y ofrecieron un rendimiento de última generación. El uso de DL para generar una amplia gama de resultados ha atraído a los investigadores de IA. Generative Adversarial Networks [2], el trabajo histórico en esta dirección, se llevó a cabo durante 2014 donde se generaron imágenes de aspecto real de rostros y números humanos. Esto llevó a realizar más investigaciones para desarrollar técnicas de IA generativa en otros dominios.

El modelado del lenguaje ha sido una tarea desafiante para la IA. El objetivo de los modelos de lenguaje es predecir la siguiente palabra dada una secuencia de palabras. El uso de DL para la formación previa de LLM se demostró en 2019 [3]. Los transformadores generativos preentrenados (GPT) son la tecnología subyacente que impulsa ChatGPT. Estos modelos se han entrenado con un gran volumen de datos de texto gastando una enorme potencia informática en unidades de procesamiento de gráficos (GPU). Los resultados de GPT-3/GPT-4 para tareas como resumen de texto, respuesta a preguntas y generación de código han sido impresionantes.

Desafíos para los modelos de IA generativa

Los modelos DL aprenden de los datos de entrenamiento y establecen los parámetros de las redes neuronales artificiales para representar la visión del mundo representada en los datos. Estos modelos son generalmente muchos órdenes de magnitud más grandes que los modelos tradicionales de aprendizaje automático (ML). El tamaño de estas redes y modelos puede convertirse en un desafío cuando la cantidad de datos disponibles para el entrenamiento es pequeña. La mayoría de los conjuntos de datos del mundo real tienen un desequilibrio en las clases y pueden tener un sesgo inherente (no obvio). Regularmente se han desarrollado técnicas para entrenar modelos DL para superar estos desafíos. De lo contrario, son propensos a memorizar los datos de entrenamiento, lo que también se conoce como sobreajuste , y es posible que los modelos no puedan generalizar datos invisibles o proporcionar resultados sesgados.

Los modelos de IA generativa también son propensos a enfrentar desafíos inherentes a las técnicas de DL. Además, la naturaleza generativa de los modelos puede introducir artefactos en los datos generados. Por ejemplo, los generadores de imágenes de IA tienen dificultades con las manos. Podrían producir imágenes de aspecto extraño que son difíciles de explicar. Se han propuesto varios enfoques para superar estos desafíos [4]. Esto también se aplica a los LLM cuyo trabajo es predecir la siguiente palabra. Pueden completar errores o dar respuestas incorrectas, dados los datos con los que están capacitados. Por lo tanto, se debe tener cuidado para garantizar que existan barreras de seguridad, en particular, cuando responden a consultas humanas.

Allanando el camino hacia aplicaciones innovadoras

El éxito inicial de DL se demostró para tareas específicas como la clasificación, donde los modelos se entrenaron para que fueran profundos y estrechos. Por el contrario, los modelos de IA generativa tienden a ser amplios y superficiales. Las aplicaciones iniciales de DL se diseñaron para proporcionar la mayor precisión exigida por los requisitos comerciales y los investigadores de IA se centraron en mejorar estas métricas. La IA generativa ha abierto posibilidades para su uso en campos creativos como el diseño de moda, la escritura creativa y la generación de arte. Esto conducirá a un uso más amplio de la IA en áreas que requieren mucha habilidad y que hasta ahora no han sido tocadas por ella. La investigación futura se guiará por cómo estas comunidades sociales se adaptan al uso de la IA y esto puede estimular el crecimiento de aplicaciones innovadoras.

Descargo de responsabilidad: Las opiniones reflejadas en este artículo son las del autor y no necesariamente reflejan las opiniones de la organización global EY o sus firmas miembro.

Referencias

Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton: Clasificación de ImageNet con redes neuronales convolucionales profundas. NIPS 2012: 1106-1114.
Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron C. Courville, Yoshua Bengio: redes adversarias generativas. NIPS 2014: 2672-2680.
Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova: BERT: Entrenamiento previo de transformadores bidireccionales profundos para la comprensión del lenguaje. NAACL-HLT (1) 2019: 4171-4186.
Makkapati, V., Patro, A. (2017). Mejora de la simetría en imágenes de moda generadas por GAN. En: Bramer, M., Petridis, M. (eds) Inteligencia artificial XXXIV. SGAI 2017. Apuntes de conferencias sobre informática, vol 10630. Springer, Cham.

No estás registrado para postear comentarios

JComments

Categoría: Inteligencia Artifical

LinuxParty