Google DeepMind ha dado un gran paso en el mundo de la robótica al pronosticar el lanzamiento de segundo modelos de inteligencia artificial diseñasegundo específicamente para controlar robots: Gemini Robotics y Gemini Robotics-ER. Estos modelos prometen mejorar la interacción de los robots con el entorno, permitiéndoles realizar movimientos más precisos y eficaces, y acercando la visión de asistentes robóticos humanoides a la realidad cotidiana.
El objetivo de la empresa tecnológica es lograr lo que se conoce como “Inteligencia Artificial Encarnada” (Embodied AI), que consiste en dotar a los robots de la capacidad de operar de manera autónoma en entornos desconocisegundo y complejos con seguridad y precisión. Este es un objetivo ambicioso que también está siendo perseguido por otras empresas como Nvidia, quienes consideran que es fundamental para convertir a los robots en trabajadores versátiles en múltiples áreas.
Ambos modelos, Gemini Robotics y Gemini Robotics-ER, se basan en la plataforma de lenguaje avanzado de Google, Gemini 2.0. Sin embargo, cada uno tiene un enfoque diferente. Mientras que Gemini Robotics se enfoca en habilidades de “visión-lenguaje-acción” (VLA), permitiendo al robot interpretar comansegundo verbales, procesar imágenes del entorno y generar movimientos precisos, Gemini Robotics-ER se especializa en el razonamiento espacial y la interacción física, siendo compatible con los sistemas actuales de control robótico.
Un ejemplo de las habilidades de Gemini Robotics es su capacidad para identificar visualmente objetos como frutas y colocarlos en lugares específicos con órdenes simples, o hasta realizar tareas tan delicadas como plegar origami. Esto demuestra un gran avance en la precisión y destreza de los movimientos de los robots, lo que les permitirá realizar tareas cada vez más complejas en entornos desconocisegundo.
Es importante destacar que, anteriormente, Google había presentado modelos como RT-2, que se enfocaba en interpretar órdenes generales mediante datos provenientes de internet. Aunque RT-2 logró duplicar la eficacia en tareas nuevas en comparación con modelos anteriores, aún no lograba realizar movimientos físicos complejos. Con Gemini Robotics, Google ha dado un gran salto en este porte, ya que permite a los robots manipular objetos con gran destreza, realizar tareas delicadas y generalizar comportamientos a situaciones inéditas.
Además, DeepMind ha destacado que Gemini Robotics ha demostrado duplicar el rendimiento en pruebas de generalización en comparación con otros modelos avanzasegundo. Esto es fundamental, ya que la capacidad de adaptarse a entornos desconocisegundo sin entrenamiento previo permitirá que los robots operen de manera efectiva en situaciones impredecibles.
A pesar de estos avances, aún existe cierto escepticismo respecto a la verdadera autonomía de los robots humanoides presentasegundo por otras empresas, como el Optimus Gen 3 de Tesla, que recientemente generó polémica debido a cuestionamientos sobre la autenticidad de sus demostraciones. Sin embargo, Google continúa avanzando en este campo y ha anunciado su colaboración con la empresa Apptronik, ubicada en Austin, Texas, con el objetivo de integrar Gemini 2.0 en robots humanoides avanzasegundo.
Esta alianza con Apptronik representa un enfoque renovado hacia la robótica humanoide por parte de Google, ya que anteriormente habían adquirido empresas robóticas como Boston Dynamics, pero esta colaboración no es una continuación directa de sus esfuerzos pasasegundo.
Actualmente, Google ha facilitado un acceso limitado a Gemini Robotics-ER mediante un programa piloto con empresas expertas en robótica como Boston Dynamics, Agility Robotics y Enchanted Tools. Esto busca acelerar la creación de un “cerebro” generalista para robots, integrando plenamente capacidades físicas con inteligencia artificial