Lo que busca conseguir Google no es solo reducir al mínimo necesario la interacción con estos robots para que estos realicen tareas complejas, sino que la propia interacción con los humanos sea posible en entornos complejos. Para ello, aseguran los investigadores, han estado introduciendo grandes cantidades de texto de documentos físicos y digitales en modelos de aprendizaje automático específicos.
Descubrieron que esto podía generar programas con habilidades lingüísticas superiores, y por ende, el software de control de estos robots podía adquirir capacidades como resumir estos documentos o responder preguntas sobre los mismos.
El robot de la demostración estaba impulsado por PaLM, el que se considera el lenguaje más capaz de la compañía. Permite, entre otras cosas, explicar conceptos con lenguaje natural o responder a preguntas con conclusiones naturales. Y esto es lo que se usa para generar la secuencia de actos del robot para realizar la tarea que se le ha encomendado.
Es decir, que el usuario responsable del robot no tiene que usar un comando con una redacción o escritura específica (como sí ocurre con los asistentes virtuales). Tan solo necesita soltar un concepto, como "tengo sed" para que este le ofrezca una bebida. Algo que hizo con el científico e investigador de Google Fei Xia.
En la demostración, los ingenieros de Google pidieron a este robot que limpiase, por ejemplo, el derrame de un líquido en el suelo. El robot entendió que debía coger un producto de limpieza para limpiarlo, reconociendo que esa era la respuesta más lógica ante esa situación. Todo, de nuevo, interpretando los comandos hablados con lenguaje natural de forma completamente normal.
En cuanto a la biblioteca de acciones físicas, esta se construyó a través de un proceso de capacitación separado en el que los humanos controlaron al robot de forma remota para enseñarle cómo hacer ciertas tareas, como recoger objetos.
Por supuesto, tiene sus limitaciones. Pese al poder de PaLM, no se sabe si este sistema sería capaz de entender con fluidez oraciones o comandos muy fluidos, a diferencia de cómo lo hace con comandos simples. Según Brian Ichter, un científico investigador de Google, este proyecto podría permitir llegar a métodos para construir modelos de lenguaje con una mejor comprensión de la realidad.
Vincent Vanhoucke, director senior de investigación de robótica de Google, asegura que esto está lejos de ser un producto. "Tomará un tiempo antes de que podamos tener una comprensión firme del impacto comercial directo", aseguró.
Comentarios
Publicar un comentario