LinuxParty
El miércoles, Google DeepMind anunció dos nuevos modelos de IA diseñados para controlar robots: Gemini Robotics y Gemini Robotics-ER. La compañía afirma que estos modelos ayudarán a robots de diversas formas y tamaños a comprender e interactuar con el mundo físico de forma más eficaz y precisa que los sistemas anteriores, allanando el camino para aplicaciones como los asistentes robóticos humanoides. [...] Los nuevos modelos de Google se basan en la base del modelo de lenguaje grande Gemini 2.0, añadiendo capacidades específicas para aplicaciones robóticas. Gemini Robotics incluye lo que Google denomina capacidades de "visión-lenguaje-acción" (VLA), lo que le permite procesar información visual, comprender comandos lingüísticos y generar movimientos físicos. Por el contrario, Gemini Robotics-ER se centra en el "razonamiento incorporado" con una comprensión espacial mejorada, lo que permite a los expertos en robótica conectarlo a sus sistemas de control de robots existentes. Por ejemplo, con Gemini Robotics, se puede pedir a un robot que "coja el plátano y lo ponga en la cesta", y este utilizará la vista de la cámara de la escena para reconocer el plátano, guiando un brazo robótico para que realice la acción correctamente. O podrías decir: "dobla un zorro de origami", y usará sus conocimientos de origami y cómo doblar papel con cuidado para realizar la tarea.
En 2023, hablamos del RT-2 de Google, que representó un avance notable hacia capacidades robóticas más generalizadas al usar datos de internet para ayudar a los robots a comprender comandos de lenguaje y adaptarse a nuevos escenarios, duplicando así su rendimiento en tareas inéditas en comparación con su predecesor. Dos años después, Gemini Robotics parece haber dado otro gran salto, no solo en la comprensión de qué hacer, sino también en la ejecución de manipulaciones físicas complejas que el RT-2 claramente no podía realizar. Mientras que el RT-2 se limitaba a reutilizar movimientos físicos que ya había practicado, Gemini Robotics, según se informa, demuestra una destreza significativamente mejorada que permite tareas antes imposibles como doblar origami y empaquetar bocadillos en bolsas Ziploc . Este cambio de robots que sólo entienden comandos a robots que pueden realizar tareas físicas delicadas sugiere que DeepMind puede haber comenzado a resolver uno de los mayores desafíos de la robótica: lograr que los robots conviertan su "conocimiento" en movimientos cuidadosos y precisos en el mundo real.DeepMind afirma que Gemini Robotics "duplica con creces su rendimiento en un completo benchmark de generalización en comparación con otros modelos de visión, lenguaje y acción de vanguardia".

-
Ciencia
- ¿Adiós a las canas? La ciencia descubre cómo revertir el proceso de las canas
- Nuevos estudios científicos sugieren que la Sábana Santa podría tener 2.000 años de antigüedad
- Mark Thomson, del CERN: La IA revolucionará la física fundamental
- Por qué incluso los físicos siguen sin entender la teoría cuántica 100 años después
- Se descubrieron tres nuevos materiales superconductores en 2024
- Desigualdad global en las tasas de natalidad: ¿Cómo afectará el baby boom y el baby bust a la economía en 2100?
- El agujero más cercano al centro de la tierra. Voronya
- Microplásticos y seguridad alimentaria. Capitulo III. Mecanismos moleculares e impacto de los microplásticos en la salud humana.
- Microplásticos Y Seguridad Alimentaria. Capítulo II
- La Lima de Cañaveral, Cáceres, oriunda de ésta zona, es exclusiva y está en peligro de extinción.
- Microplásticos Y Seguridad Alimentaria. Capítulo I: Origen Y Generalidades.
- Glaciares de Sal Plantean la Probabilidad de Vida en Mercurio, el planeta más próximo al Sol.
- Hombre de Petralona: Un Enigma Cronológico que Desafía las Teorías Establecidas
- Implante Innovador Recupera Movilidad en Extremidades Paralizadas, Abriendo Camino a Curar la Parálisis.
- La Prótesis Biónica que Cambió la Vida de una Paciente Después de 20 Años de dolores