robogeek.ru

все о роботах и робототехнике

edu.robogeek.ru

все об обучении робототехнике

AlphaGo проходит путь от новичка до гроссмейстера за три дня

DeepMind, лондонская дочерняя компания Google, объявила о создании машины, играющую в древнюю китайскую игру го намного лучше, чем ее предшественник AlphaGo, который в прошлом году выиграл матч у Ли Седола, мастера мирового уровня из Сеула.

Прежнее программное обеспечение было подготовлено за несколько месяцев с использованием огромной базы данных, включающей записи игр мастеров, и получило целый ряд рекомендаций от своих создателей. Затем прошел этап совершенствования за счет множества игр против себя. Новый ИИ, названный AlphaGo Zero, не получил никаких наставлений и баз данных — он тренировался полностью самостоятельно от начального уровня до гроссмейстера.

После нескольких дней обучения новая машина сразилась со старой в турнире со стандартным временем на игру по два часа на одного игрока. Итог — AlphaGo Zero выиграл всухую матч из 100 игр!

Чтобы понять новую систему, мы должны сначала рассмотреть версию прошлого года. Она состоит из трех частей: алгоритма поиска, симулятора Монте-Карло и двух глубоких нейронных сетей.

Алгоритмы поиска указывают ходы в компьютерных шахматных программах. Алгоритм начинается с перечисления всех возможных ходов, затем всех возможных ответных ходов, и так создается дерево анализа. Затем используется второй алгоритм для оценки конечной позиции на каждой ветви дерева. Наконец, выбирается ход, который ведет к лучшему результату, если противник также выберет лучшие ходы. Алгоритм поиска имеет ограниченное значение для го, потому что так сложно оценивать конечные позиции.

Моделирование методом Монте-Карло генерирует большое количество возможных игр, чтобы понять, как часто данный ход приводит к хорошим результатам. Другие программисты уже пробовали этот метод для го и получили достойные внимания результаты в 2014 году.

Глубокие нейронные сети были применены к го в первый раз инженерами DeepMind под руководством генерального директора Демиса Хассабиса и Дэвида Сильвера. В дополнение к алгоритму поиска и методу Монте-Карло, оригинальная система AlphaGo использовала две сети, одна из которых была обучена подражать игре мастеров, примером которой является огромная база данных игр, а другая — для оценки позиций. Затем программа играла миллионы раз против себя, чтобы превзойти уровень человеческих игроков.

DeepMind называет такое самообучение усиленным обучением и AlphaGo Zero полагается только на эту методику. Никакой поиск или метод Монте-Карло в AlphaGo Zero не используется. Машина играла много раз, глядя только на доску и на черно-белые камни, которые занимают свои места, перемещаются на пересечениях 19 вертикальных и 19 горизонтальных линий. И машина использовала только одну нейронную сеть, а не две.

В итоге всего за год алгоритм от DeepMind превратился из направляемого человеком в полностью автономный. Причем используемые мощности значительно уменьшились, а новая версия программы превзошла исходную на 100%. Есть над чем задуматься.

Комментарии

(0) Добавить комментарий

Новые комментарии

Alpha 2 – робот-гуманоид с социальными наклонностями (+ видео)
Гость
21.01.2018
02:47:07
Здесь видел 😉http://nanojam.ru/products/ubtech-alpha-2#?tab=tabVideos
Опрос: Какие новости прошедшего года вам понравились?
Сергей
18.01.2018
05:26:59
Понравилась информация о робототехнических соревнованиях RoboCup в России. Планирую готовиться и участвовать.