Обучение алгоритмов безопасным действиям в незнакомой среде

Дети, которые только учатся ходить, могут идти слишком быстро и упасть или столкнуться с мебелью. Однако этот элемент причинно-следственной связи учит их бесценной информации о том, как их тела перемещаются в пространстве, чтобы они могли избежать падений в будущем.

Машины учатся во многом так же, как и люди, в том числе учатся на своих ошибках. Однако для многих машин, таких как автономные автомобили и энергосистемы, обучение в реальных условиях представляет собой проблему. По мере развития и распространения машинного обучения растет интерес к его применению в очень сложных, критически важных для безопасности автономных системах. Однако перспективность этих технологий сдерживается рисками безопасности, присущими процессу обучения и не только.

Новая исследовательская работа опровергает идею о том, что для обучения безопасным действиям в незнакомой среде необходимо неограниченное количество испытаний. В работе, опубликованной в журнале IEEE Transactions on Automatic Control, представлен новый подход, обеспечивающий обучение безопасным действиям с полной уверенностью, при этом соблюдается баланс между оптимальностью, опасными ситуациями и быстрым распознаванием небезопасных действий.

"Обычно машинное обучение ищет наиболее оптимальное решение, что может привести к увеличению количества ошибок на этом пути. Это проблематично, когда ошибка может означать столкновение со стеной, - объяснил Хуан Андрес Базерк, доцент кафедры электротехники и вычислительной техники в Школе инженеров Свонсона, который возглавил исследование вместе с доцентом Энрике Маллада из Университета Джона Хопкинса. - В этом исследовании мы показываем, что обучение безопасной политике принципиально отличается от обучения оптимальной политике, и что это можно делать отдельно и эффективно".

Исследовательская группа провела исследования в двух различных сценариях, чтобы проиллюстрировать свою концепцию. Они создали алгоритм, который обнаруживает все небезопасные действия в течение ограниченного числа раундов. Команда также решила задачу поиска оптимальной политики для марковского процесса принятия решений (Markov decision process, MDP) с почти уверенными ограничениями.

Их анализ подчеркнул компромисс между временем, необходимым для обнаружения небезопасных действий в базовом MDP, и уровнем подверженности небезопасным событиям. MDP полезна, поскольку она обеспечивает математическую основу для моделирования принятия решений в ситуациях, когда результаты частично случайны, а частично находятся под контролем лица, принимающего решение.

Для подтверждения своих теоретических выводов исследователи провели моделирование, которое подтвердило выявленные компромиссы. Эти результаты также показали, что включение ограничений безопасности может ускорить процесс обучения.

"Это исследование опровергает сложившееся мнение о том, что для обучения безопасным действиям требуется неограниченное количество испытаний, - заявил Базерк. - Наши результаты показывают, что, эффективно управляя компромиссами между оптимальностью, подверженностью небезопасным событиям и временем обнаружения, мы можем достичь гарантированной безопасности без бесконечного числа исследований. Это имеет значительные последствия для робототехники, автономных систем, искусственного интеллекта и многого другого".

Теги: машинное обучение

Новости робототехники

Обучение алгоритмов безопасным действиям в незнакомой среде

Комментарии

Ищите команду разработчиков? Не можете найти робота для своих нужд? Пишите нам!

Новые комментарии

Другие статьи по теме

Категории