edu.robogeek.ru

все об обучении робототехнике

prom.robogeek.ru

все о промышленной робототехнике

Основное меню
Категории новостей

Система ИИ для редактирования музыки на видео (+видео)

Любители и профессиональные исполнители музыки могут часами трудиться над своими видеоклипами для YouTube, чтобы понять, как лучше следует исполнять свои любимые композиции. Большим подспорьем для них было бы воспроизведения видео с возможностью выделить единственный инструмент, который нужно услышать.

В новом проекте лаборатории искусственного интеллекта и информатики(CSAIL) Массачусетского технологического института система ИИ с возможностью глубокого обучения может посмотреть видеозапись музыкального спектакля и изолировать звуки отдельных инструментов, сделать их громче или тише.

Эта система, которая является «самоконтролируемой», не требует какого-либо человеческого участия для того, чтобы разобраться в инструментах и звуках. Проведя более 60 часов обучения по видео, система PixelPlayer может просмотреть никогда еще не виденный музыкальный спектакль, определить конкретные инструменты на уровне пикселей и извлекать звуки, которые ассоциируются с этими инструментами.

Способность изменять громкость отдельных инструментов означает, что в будущем подобные системы потенциально могут помочь инженерам улучшить качество звука старых концертных съемок. Можно даже представить исполнителей, которые захотят услышать звучание определенной композиции с другими инструментами (т. е. можно быстро поменять электрическую гитару на акустическую).

PixelPlayer может идентифицировать звуки более 20 популярных инструментов. Ведущий автор исследования Хан Чжао говорит, что система сможет определить и многие другие инструменты после обучения, хотя она все еще может иметь проблемы с выявлением подклассов инструментов (например, альт саксофон и тенор).

Система сначала находит области изображения, которые связаны с воспроизводимыми звуками, а затем отсортировывает входные звуки в набор компонентов, которые представляют звук от каждого пикселя.

«Мы ожидали, что в лучшем случае сможем распознать, какие звуки воспроизводят отдельные инструменты, - говорит Чжао, аспирант CSAIL. - Мы были удивлены, что смогли на самом деле пространственно найти инструменты на уровне пикселей».

PixelPlayer использует методы глубокого обучения — это означает, что он находит закономерности в данных, используя нейронные сети, которые прошли обучение на имеющихся видеозаписях. В частности, одна нейронная сеть анализирует видеоряд клипа, другая анализирует звук, а третья является «синтезатором», ассоциирующим определенные пиксели с конкретными звуковыми волнами, чтобы разделить разные звуки.

Чжао говорит, что такая система, как PixelPlayer, может использоваться даже для роботов, чтобы лучше распознавать окружающие звуки и объекты, например, животных или транспорт.

Теги: ИИ, MIT, CSAIL

Комментарии

(0) Добавить комментарий


Новые комментарии

Автономные ноги робота передвигаются самостоятельно (+видео)
Александр
13.11.2018
09:49:14
Секрет устойчивого хождения антропоморфного робота на двух ногах в автономном режиме на сайте: http://streltsovaleks.narod.ru/WalkingRobots.htm
В чем секрет устойчивости двуногих роботов? (+видео)
Александр
11.11.2018
06:16:43
Секрет - ответ: http://streltsovaleks.narod.ru/WalkingRobots.htm