edu.robogeek.ru

все об обучении робототехнике

prom.robogeek.ru

все о промышленной робототехнике

Основное меню
Категории новостей

Система ИИ для редактирования музыки на видео (+видео)

Любители и профессиональные исполнители музыки могут часами трудиться над своими видеоклипами для YouTube, чтобы понять, как лучше следует исполнять свои любимые композиции. Большим подспорьем для них было бы воспроизведения видео с возможностью выделить единственный инструмент, который нужно услышать.

В новом проекте лаборатории искусственного интеллекта и информатики(CSAIL) Массачусетского технологического института система ИИ с возможностью глубокого обучения может посмотреть видеозапись музыкального спектакля и изолировать звуки отдельных инструментов, сделать их громче или тише.

Эта система, которая является «самоконтролируемой», не требует какого-либо человеческого участия для того, чтобы разобраться в инструментах и звуках. Проведя более 60 часов обучения по видео, система PixelPlayer может просмотреть никогда еще не виденный музыкальный спектакль, определить конкретные инструменты на уровне пикселей и извлекать звуки, которые ассоциируются с этими инструментами.

Способность изменять громкость отдельных инструментов означает, что в будущем подобные системы потенциально могут помочь инженерам улучшить качество звука старых концертных съемок. Можно даже представить исполнителей, которые захотят услышать звучание определенной композиции с другими инструментами (т. е. можно быстро поменять электрическую гитару на акустическую).

PixelPlayer может идентифицировать звуки более 20 популярных инструментов. Ведущий автор исследования Хан Чжао говорит, что система сможет определить и многие другие инструменты после обучения, хотя она все еще может иметь проблемы с выявлением подклассов инструментов (например, альт саксофон и тенор).

Система сначала находит области изображения, которые связаны с воспроизводимыми звуками, а затем отсортировывает входные звуки в набор компонентов, которые представляют звук от каждого пикселя.

«Мы ожидали, что в лучшем случае сможем распознать, какие звуки воспроизводят отдельные инструменты, - говорит Чжао, аспирант CSAIL. - Мы были удивлены, что смогли на самом деле пространственно найти инструменты на уровне пикселей».

PixelPlayer использует методы глубокого обучения — это означает, что он находит закономерности в данных, используя нейронные сети, которые прошли обучение на имеющихся видеозаписях. В частности, одна нейронная сеть анализирует видеоряд клипа, другая анализирует звук, а третья является «синтезатором», ассоциирующим определенные пиксели с конкретными звуковыми волнами, чтобы разделить разные звуки.

Чжао говорит, что такая система, как PixelPlayer, может использоваться даже для роботов, чтобы лучше распознавать окружающие звуки и объекты, например, животных или транспорт.

Теги: ИИ, MIT, CSAIL

Комментарии

(0) Добавить комментарий


Ищите команду разработчиков? Не можете найти робота для своих нужд? Пишите нам!

Для обратной связи укажите ваш E-mail, он будет доступен только администратору. Так вы сможете оперативно узнать, когда ответ на ваш вопрос будет опубликован

Новые комментарии

Liftware level не позволит опрокинуть ложку во время обеда (+видео)
Гость
21.09.2018
08:29:03
На сайте производителя за 195.00 $: https://store.liftware.com/collections/liftware-level/products/liftware-level-starter-kit Но вопрос доставят ли ее в Ваш регион.
Автономный подводный робот выходит на охоту за крылатками
Редакция Robogeek.ru
29.08.2018
12:30:43
В данной статье речь идет о крылатках. Просим прощения у наших читателей за некорректные данные в материале - ошибка уже исправлена.