DeepMind исследует возможности ИИ при распознавании видео

Наиболее известные сегодня ИИ, используемые Google, Facebook, Amazon и другими компаниями из Кремниевой долины, базируются на алгоритмах глубокого обучения, которые могут научиться выявлять закономерности в больших массивах данных.

Со временем такие алгоритмы могут становиться намного совершеннее в решении целого ряда разнообразных заданий, включая перевод с иностранных языков или автоматическое распознавание лиц друзей в сетевых сервисах.

Но даже наиболее точно настроенный механизм глубокого обучения опирается на наличие большого количества качественных данных для изучения. Занимающаяся совершенствованием способностей ИИ по распознаванию жестов человека в движении британская DeepMind представила свой набор данных Kinetics, состоящий из 300 000 видеоклипов и 400 классов действий человека.

«Система ИИ теперь очень хорошо распознает объекты на изображениях, но до сих пор ей трудно понять смысл видео, - отметил пресс-секретарь DeepMind. - Одна из главных причин этого положения заключается в том, что научному сообществу до сих пор не хватало больших баз видеоданных высокого качества».

DeepMind воспользовалась услугами специалистов сервиса Amazon Mechanical Turk, чтобы правильно идентифицировать и отмаркировать действия в тысячах клипов с YouTube. Каждый из 400 классов действий человека в наборе данных Kinetics имеет, по крайней мере, 400 видеоклипов, каждый продолжительностью около 10 секунд, взятых из отдельных видео на YouTube.

Определенный интерес представляют первые результаты обучения и тестирования с набором данных Kinetics. Например, алгоритмы глубокого обучения показали точность 80% или выше при классификации таких действий, как «игра в теннис», «ползающий малыш», «представление прогноза погоды», «резка арбуза» и «боулинг». Но точность классификации упала примерно до 20% и менее для действий персонажа Гомера Симпсона, включая нанесение ударов и ряд таких действий, как «приготовление торта», «бросание монеты».

ИИ не может точно определить конкретные потребляемые продукты, особенно если это хот-дог или гамбургер. Также могут представлять трудность для ИИ действия из области танцев и сосредоточенные на определенной части тела.

Некоторые действия происходят довольно быстро и видны только в некоторых кадрах видеоклипа, по словам представителя DeepMind.

DeepMind также стремился создать новый набор данных достаточно сбалансированным в отношении гендерных и расовых признаков для обеспечения точного обучения ИИ. Последние случаи показали, что несбалансированные обучающие базы для алгоритмов глубокого обучения могут стать причиной затруднений при распознавании лиц определенных этнических групп.

Подобные исследования могут привести к созданию нового программного обеспечения и роботов для распознавания видеоклипов. «Способность к распознаванию видео представляет собой серьезный вызов для научного сообщества, и мы находимся в самом начале этого этапа, - сообщает DeepMind. - До какого-либо реального применения еще очень далеко, но вы можете увидеть потенциал в таких областях, как медицина, например, помощь в диагностике проблем с сердцем по эхокардиограммам».

Теги: DeepMind, ИИ, Kinetics

Новости робототехники

DeepMind исследует возможности ИИ при распознавании видео

Комментарии

Ищите команду разработчиков? Не можете найти робота для своих нужд? Пишите нам!

Новые комментарии

Другие статьи по теме

Категории