robogeek.ru

все о роботах и робототехнике

edu.robogeek.ru

все об обучении робототехнике

AlphaGo проходит путь от новичка до гроссмейстера за три дня

DeepMind, лондонская дочерняя компания Google, объявила о создании машины, играющую в древнюю китайскую игру го намного лучше, чем ее предшественник AlphaGo, который в прошлом году выиграл матч у Ли Седола, мастера мирового уровня из Сеула.

Прежнее программное обеспечение было подготовлено за несколько месяцев с использованием огромной базы данных, включающей записи игр мастеров, и получило целый ряд рекомендаций от своих создателей. Затем прошел этап совершенствования за счет множества игр против себя. Новый ИИ, названный AlphaGo Zero, не получил никаких наставлений и баз данных — он тренировался полностью самостоятельно от начального уровня до гроссмейстера.

После нескольких дней обучения новая машина сразилась со старой в турнире со стандартным временем на игру по два часа на одного игрока. Итог — AlphaGo Zero выиграл всухую матч из 100 игр!

Чтобы понять новую систему, мы должны сначала рассмотреть версию прошлого года. Она состоит из трех частей: алгоритма поиска, симулятора Монте-Карло и двух глубоких нейронных сетей.

Алгоритмы поиска указывают ходы в компьютерных шахматных программах. Алгоритм начинается с перечисления всех возможных ходов, затем всех возможных ответных ходов, и так создается дерево анализа. Затем используется второй алгоритм для оценки конечной позиции на каждой ветви дерева. Наконец, выбирается ход, который ведет к лучшему результату, если противник также выберет лучшие ходы. Алгоритм поиска имеет ограниченное значение для го, потому что так сложно оценивать конечные позиции.

Моделирование методом Монте-Карло генерирует большое количество возможных игр, чтобы понять, как часто данный ход приводит к хорошим результатам. Другие программисты уже пробовали этот метод для го и получили достойные внимания результаты в 2014 году.

Глубокие нейронные сети были применены к го в первый раз инженерами DeepMind под руководством генерального директора Демиса Хассабиса и Дэвида Сильвера. В дополнение к алгоритму поиска и методу Монте-Карло, оригинальная система AlphaGo использовала две сети, одна из которых была обучена подражать игре мастеров, примером которой является огромная база данных игр, а другая — для оценки позиций. Затем программа играла миллионы раз против себя, чтобы превзойти уровень человеческих игроков.

DeepMind называет такое самообучение усиленным обучением и AlphaGo Zero полагается только на эту методику. Никакой поиск или метод Монте-Карло в AlphaGo Zero не используется. Машина играла много раз, глядя только на доску и на черно-белые камни, которые занимают свои места, перемещаются на пересечениях 19 вертикальных и 19 горизонтальных линий. И машина использовала только одну нейронную сеть, а не две.

В итоге всего за год алгоритм от DeepMind превратился из направляемого человеком в полностью автономный. Причем используемые мощности значительно уменьшились, а новая версия программы превзошла исходную на 100%. Есть над чем задуматься.

Комментарии

(0) Добавить комментарий

Ищите команду разработчиков? Не можете найти робота для своих нужд? Пишите нам!

Для обратной связи укажите ваш E-mail, он будет доступен только администратору. Так вы сможете оперативно узнать, когда ответ на ваш вопрос будет опубликован

Новые комментарии

Пять занятий, которые оставят людям роботы, когда они заполонят мир
Гость
16.11.2017
12:01:40
Еще нужно специальное министерство которое будет следить чтобы роботы не захватили мир
10 основных навыков, необходимых для робототехников
Гость
15.11.2017
04:03:27
Довольно полезная информация для таких как я 😃