LinuxParty

Inicio desactivadoInicio desactivadoInicio desactivadoInicio desactivadoInicio desactivado
 

El escritor de tecnología Matthew Hutson (también lector de Slashdot n.° 1 467 653) analiza un nuevo tipo de sistema de codificación de IA automejorable. Este sistema reescribe su propio código basándose en evidencia empírica de lo que le resulta útil, como se describe en una preimpresión reciente en arXiv.

Del nuevo artículo de Hutson en IEEE Spectrum :Una Máquina de Darwin-Gödel (o MDG) comienza con un agente codificador capaz de leer, escribir y ejecutar código, utilizando un LLM para la lectura y escritura. Posteriormente, aplica un algoritmo evolutivo para crear numerosos agentes nuevos. En cada iteración, la MDG selecciona un agente de la población y le ordena al LLM que cree un cambio para mejorar su capacidad de codificación [creando "una versión nueva e interesante del agente muestreado"]. Los LLM poseen una intuición sobre lo que podría ser útil, ya que se entrenan con mucho código humano. El resultado es una evolución guiada, a medio camino entre la mutación aleatoria y la mejora demostrablemente útil. Posteriormente, la MDG prueba al nuevo agente en un punto de referencia de codificación, evaluando su capacidad para resolver desafíos de programación.

Los investigadores ejecutaron una MDG durante 80 iteraciones utilizando un punto de referencia de codificación llamado SWE-bench, y ejecutaron otra durante 80 iteraciones utilizando un punto de referencia llamado Polyglot. Las puntuaciones de los agentes mejoraron en SWE-bench del 20 % al 50 %, y en Polyglot del 14 % al 31 %. «Nos sorprendió mucho que el agente de codificación pudiera escribir código tan complejo por sí solo», afirmó Jenny Zhang, científica informática de la Universidad de Columbia Británica y autora principal del artículo. «Podía editar múltiples archivos, crear nuevos archivos y crear sistemas realmente complejos».

Una preocupación tanto con la búsqueda evolutiva como con los sistemas de automejora, y especialmente con su combinación, como en DGM, es la seguridad. Los agentes podrían volverse ininterpretables o desalinearse con las directivas humanas. Por ello, Zhang y sus colaboradores añadieron medidas de seguridad. Mantuvieron los DGM en entornos de pruebas sin acceso a internet ni a un sistema operativo, y registraron y revisaron todos los cambios de código. Sugieren que, en el futuro, incluso podrían recompensar a la IA por hacerse más interpretable y alineada. (En el estudio, descubrieron que los agentes informaban falsamente el uso de ciertas herramientas, por lo que crearon un DGM que recompensaba a los agentes por no inventar cosas, aliviando parcialmente el problema. Sin embargo, un agente pirateó el método que rastreaba si estaba inventando cosas).

Como dice el artículo, las mejoras de los agentes se fueron intensificando "a medida que ellos mismos mejoraban en su proceso de mejora..."

No estás registrado para postear comentarios



Redes:



   

 

Suscribete / Newsletter

Suscribete a nuestras Newsletter y periódicamente recibirás un resumen de las noticias publicadas.

Donar a LinuxParty

Probablemente te niegues, pero.. ¿Podrías ayudarnos con una donación?


Tutorial de Linux

Filtro por Categorías