Новый метод помогает системам ИИ лучше ориентироваться в пространстве

Фотографии двухмерны, но автономные транспортные средства и другие технологии должны ориентироваться в трехмерном мире. Исследователи разработали новый метод, помогающий ИИ извлекать трехмерную информацию из двухмерных изображений, что делает камеры более полезными инструментами для этих развивающихся технологий.

"Существующие методы извлечения трехмерной информации из двухмерных изображений хороши, но недостаточно, - говорит Тяньфу Ву, соавтор статьи, посвященной этой работе, и доцент кафедры электротехники и вычислительной техники в North Carolina State University. - Наш новый метод, названный MonoXiver, может использоваться в сочетании с существующими методиками и делать их значительно более точными".

Работа особенно полезна для таких приложений, как автономные транспортные средства. Это связано с тем, что камеры дешевле других инструментов, используемых для навигации в трехмерном пространстве, таких как LIDAR. Поскольку камеры более доступны по цене, чем другие технологии, разработчики автономных транспортных средств могут устанавливать несколько камер, создавая избыточность системы. Но это полезно только в том случае, если ИИ автономного транспортного средства может извлекать трехмерную навигационную информацию из двухмерных изображений, полученных камерой. Для этого и был разработан MonoXiver.

Существующие методы извлечения 3D-данных из 2D-изображений - например, метод MonoCon, разработанный Ву и его соавторами, используют "ограничивающие рамки". В частности, эти методы обучают искусственный интеллект сканировать 2D-изображение и размещать рамки вокруг объектов на 2D-изображении, например, каждого автомобиля на улице. Эти рамки представляют собой кубоиды, которые помогают ИИ оценить размеры объектов на изображении и их местоположения относительно других объектов. Другими словами, с помощью этих рамок ИИ может определить, насколько велик автомобиль и где он находится по отношению к другим автомобилям на дороге.

Однако ограничительные рамки существующих программ зачастую несовершенны и часто не включают в себя части автомобиля или другого объекта, который появляется на двумерном изображении.

В новом методе MonoXiver каждая ограничительная рамка используется в качестве начальной точки или якоря, а ИИ выполняет анализ области, окружающей каждую рамку. В результате этого анализа программа создает множество дополнительных ограничительных рамок, окружающих якорь.

Чтобы определить, какие из этих дополнительных рамок наилучшим образом отражают "недостающие" части объекта, ИИ выполняет два сравнения. Первое сравнение касается "геометрии" каждого вторичного кубоида, чтобы определить, содержит ли он формы, которые соответствуют формам в якоре. Во втором сравнении рассматривается "внешний вид" каждого дополнительного блока, чтобы определить, содержит ли он цвета или другие визуальные характеристики, которые похожи на визуальные характеристики того, что находится в якорном блоке.

"Существенным достижением здесь является то, что MonoXiver позволяет нам очень эффективно выполнять эту методику выборки сверху вниз - создавать и анализировать вторичные ограничивающие рамки", - говорит Ву.

Для оценки точности метода MonoXiver исследователи дополнительно протестировали его на двух наборах данных: хорошо зарекомендовавшем себя наборе данных KITTI (Karlsruhe Institute of Technology and Toyota Technological Institute) и более сложном, крупномасштабном наборе данных компании Waymo.

"Мы использовали метод MonoXiver в сочетании с MonoCon и двумя другими существующими программами, предназначенными для извлечения 3D-данных из 2D-изображений, и MonoXiver значительно улучшил производительность всех трех программ, - говорит Ву. - Важно также отметить, что это улучшение достигается за счет относительно небольших вычислительных затрат".

Доклад "Monocular 3D Object Detection with Bounding Box Denoising in 3D by Perceiver" будет представлен 4 октября на International Conference on Computer Vision в Париже, Франция.

Теги: ИИ, автономный транспорт

Новости робототехники

Новый метод помогает системам ИИ лучше ориентироваться в пространстве

Комментарии

Ищите команду разработчиков? Не можете найти робота для своих нужд? Пишите нам!

Новые комментарии

Другие статьи по теме

Категории