✅Ученые программируют роботам любопытство

 

BB-8 , безусловно, выглядит любопытно на этой фотографии. 

В повороте к искусственному интеллекту (ИИ) ученые—компьютерщики запрограммировали машины на любопытство и теперь они могут исследовать свое окружение самостоятельно и учиться ради обучения. Новый подход может позволить роботам учиться даже быстрее, чем

сейчас. Когда-нибудь они могут даже превзойти ученых-людей в формировании гипотез и расширении границ того, что известно.

"Развитие любопытства-это проблема, которая лежит в основе интеллекта", - говорит Джордж Конидарис, ученый-компьютерщик, который руководит лабораторией интеллектуальных роботов в Университете Брауна и не участвовал в исследованиях. "Это будет очень полезно, когда вы не уверены, что ваш робот будет делать в будущем".

На протяжении многих лет ученые работали над алгоритмами любопытства, но копировать человеческую любознательность было сложно. Например, большинство методов не способны оценить пробелы в знаниях искусственных агентов, чтобы предсказать, что будет интересно, прежде чем они это увидят. (Люди иногда могут судить, насколько интересной будет книга по ее обложке.)

Тодд Хестер, компьютерный ученый в настоящее время в Google DeepMind в Лондоне, надеялся сделать лучше. "Я искал способы заставить компьютеры учиться более разумно и исследовать, как человек", - говорит он. - Не исследуй все подряд и не исследуй наугад, а постарайся сделать что-нибудь поумнее.

Таким образом, Хестер и Питер Стоун, компьютерный ученый из Техасского университета в Остине, разработали новый алгоритм целевого исследования с дисперсией и новизной (TEXPLORE-VENIR), который опирается на технику, называемую обучением подкреплению. В обучении с подкреплением программа пробует что-то, и если движение приближает ее к какой-то конечной цели, такой как конец лабиринта, она получает небольшую награду и с большей вероятностью повторит маневр в будущем. DeepMind использовала обучение с подкреплением, чтобы позволить программам осваивать игры Atari и настольную игру Go путем случайных экспериментов. Но TEXPLORE-VENIR, как и другие алгоритмы curiosity, также устанавливает внутреннюю цель, за которую программа вознаграждает себя за понимание чего-то нового, даже если знание не приближает его к конечной цели.

По мере того как TEXPLORE-VENIR изучает и строит модель мира, он вознаграждает себя за то, что обнаруживает информацию, непохожую на то, что видел раньше,—например, находит отдаленные точки на карте или, в кулинарном приложении, экзотические рецепты. Он также вознаграждает себя за снижение неопределенности—за знакомство с этими местами и рецептами. "Это принципиально разные типы обучения и исследования", - говорит Конидарис. "Балансировка их действительно важна. И мне нравится, что эта газета сделала и то, и другое.

Хестер и Стоун проверили свой метод в двух сценариях. Первым был виртуальный лабиринт, состоящий из цепи из четырех комнат, соединенных запертыми дверями. Бот—просто компьютерная программа—должен был найти ключ, поднять его и использовать, чтобы открыть дверь. Каждый раз, когда он проходил через дверь, он зарабатывал 10 очков, и у него было 3000 шагов, чтобы достичь высокого балла. Если исследователи сначала позволили боту исследовать 1000 шагов, руководствуясь только TEXPLORE-VENIR, он заработал в среднем около 55 очков двери на этапе тестирования 3000 шагов. Если бот использовал другие алгоритмы curiosity для такого исследования, его оценка на этапе тестирования варьировалась от нуля до 35—за исключением случаев, когда он использовал один под названием R-Max, который также заработал боту около 55 очков. В другой настройке, в которой бот должен был одновременно исследовать и проходить через двери, TEXPLORE-VENIR заработал около 70 очков, R-Max заработал около 35, а остальные заработали менее пяти, сообщают исследователи в июньском номере журнала Artificial Intelligence.

Затем исследователи испробовали свой алгоритм на физическом роботе, гуманоидной игрушке под названием Нао. В трех отдельных заданиях полуметровая машина зарабатывала очки за удар по тарелке, за то, что держала розовую ленту на руке перед глазами или за нажатие кнопки на ноге. Для каждого задания у него было 200 шагов, чтобы заработать очки, но сначала было 400 шагов, чтобы исследовать, либо случайным образом, либо с помощью TEXPLORE-VENIR. В среднем по 13 испытаниям с каждым из двух методов Нао лучше находил розовую ленту на руке после исследования с помощью TEXPLORE-VENIR, чем после случайного исследования. Он нажал кнопку в семи из 13 испытаний после использования TEXPLORE-VENIR, но совсем не после случайного исследования. И Нао ударил по тарелке в одном из пяти испытаний после использования TEXPLORE-VENIR, но никогда после случайного исследования. Благодаря полуструктурированным экспериментам с собственным телом и окружающей средой TEXPLORE-VENIR был хорошо подготовлен к поставленным задачам, так же как младенцы "лепечут" своими конечностями, прежде чем научатся ползать.

Но любопытство может убить бота или, по крайней мере, его производительность. Если внутренняя награда за обучение слишком велика, она может проигнорировать внешнюю награду, говорит Эндрю Барто, ученый-компьютерщик из Массачусетского университета в Амхерсте, который является соавтором стандартного учебника по обучению с подкреплением и является неоплачиваемым консультантом начинающей компании. На самом деле R-Max зарабатывал меньше очков, когда исследование одновременно добавлялось к отпиранию дверей, потому что его отвлекало собственное любопытство, своего рода ДОБАВЛЕНИЕ искусственного интеллекта. С другой стороны, внешние награды могут мешать обучению, говорит Барто. "Если вы даете оценки или звезды, студент может работать для них, а не для собственного удовлетворения". Таким образом, выдающаяся задача в обучении роботов - найти правильный баланс внутренних и внешних вознаграждений.

Разумно любознательные боты и роботы могли бы демонстрировать гибкое поведение при выполнении домашних дел, разработке эффективных производственных процессов или поиске лекарств от болезней. Эстер говорит, что следующим шагом будет использование глубоких нейронных сетей, алгоритмов, смоделированных на основе архитектуры мозга, чтобы лучше определить новые области для исследования, что, кстати, продвинет его собственный поиск: "Можем ли мы заставить агента учиться так же, как ребенок?"


Комментарии

Популярные сообщения