Робот на базе чат-бота от Google DeepMind — часть более масштабной революции

Фото: kolibri.press

Исследователи в области робототехники изучают, как большие языковые модели могут сделать физические машины более интеллектуальными.

В загроможденном офисе с открытой планировкой в Маунтин-Вью, Калифорния, высокий и стройный колесный робот был занят игрой в гида и неформального помощника в офисе — благодаря большому обновлению языковой модели, как показала сегодня компания Google DeepMind . Робот использует последнюю версию большой языковой модели Gemini от Google как для анализа команд, так и для поиска пути.

Например, когда человек говорит: «Найди мне место, где можно писать», робот послушно уезжает, ведя человека к безупречно чистой доске, расположенной где-то в здании.

Способность Gemini обрабатывать видео и текст — в дополнение к его способности поглощать большие объемы информации в виде ранее записанных видеотуров по офису — позволяет роботу «помощнику Google» понимать свое окружение и правильно ориентироваться, когда ему дают команды, требующие некоторого здравого смысла. Робот объединяет Gemini с алгоритмом, который генерирует определенные действия для робота, такие как поворот, в ответ на команды и то, что он видит перед собой.

Когда в декабре был представлен Gemini, Демис Хассабис, генеральный директор Google DeepMind, сказал WIRED , что его мультимодальные возможности, вероятно, откроют новые возможности робота. Он добавил, что исследователи компании усердно работают над тестированием роботизированного потенциала модели.

В новой статье, описывающей проект, исследователи, стоящие за работой, говорят, что их робот доказал свою надежность в навигации до 90 процентов, даже при выполнении сложных команд, таких как «Где я оставил свою горку?» Система DeepMind «значительно улучшила естественность взаимодействия человека и робота и значительно увеличила удобство использования робота», пишет команда.

Демонстрация наглядно демонстрирует потенциал больших языковых моделей для проникновения в физический мир и выполнения полезной работы. Gemini и другие чат-боты в основном работают в рамках веб-браузера или приложения, хотя они все больше способны обрабатывать визуальный и слуховой ввод, как недавно продемонстрировали Google и OpenAI . В мае Хассабис продемонстрировал обновленную версию Gemini , способную осмысливать планировку офиса, видимую через камеру смартфона.

Фото: overclockers.ru

Академические и промышленные исследовательские лаборатории соревнуются в том, как языковые модели могут быть использованы для улучшения способностей роботов. Майская программа Международной конференции по робототехнике и автоматизации, популярного мероприятия для исследователей робототехники, содержит список почти двух десятков статей, в которых используются модели языка зрения.

Инвесторы вкладывают деньги в стартапы, нацеленные на применение достижений ИИ в робототехнике. Несколько исследователей, участвовавших в проекте Google, с тех пор покинули компанию, чтобы основать стартап под названием Physical Intelligence , который получил первоначальное финансирование в размере 70 миллионов долларов; он работает над объединением больших языковых моделей с обучением в реальном мире, чтобы дать роботам общие способности решения проблем. Skild AI , основанный робототехниками из Университета Карнеги-Меллона, имеет схожую цель. В этом месяце он объявил о финансировании в размере 300 миллионов долларов.

Всего несколько лет назад роботу для успешной навигации требовалась карта окружающей среды и тщательно подобранные команды. Большие языковые модели содержат полезную информацию о физическом мире, а более новые версии, которые обучаются на изображениях и видео, а также на тексте, известные как модели языка зрения, могут отвечать на вопросы, требующие восприятия. Gemini позволяет роботу Google анализировать визуальные инструкции, а также устные, следуя наброску на доске, который показывает маршрут к новому пункту назначения.

В своей статье исследователи говорят, что планируют протестировать систему на разных типах роботов. Они добавляют, что Gemini должен уметь понимать более сложные вопросы, например, «Есть ли у них сегодня мой любимый напиток?» от пользователя, на столе которого много пустых банок из-под колы.

Добавить источник в ленту

Все новости:

dadanews.ru

156521