В статье представлен подход к решению проблемы по извлечению трехмерных объектов из двумерных изображений, при условии, что таких объектов может быть несколько.
Ключевые слова:реконструкция трёхмерных изображений, нейронные сети.
Множество объектов окружают человека в реальном мире. У них разнятся форма, структура, цвет, размер. И, хотя, человек умеет взаимодействовать с всеми различными типами объектов, современные роботизированные системы весьма ограничены в этом плане. У роботизированных систем существует четкий набор инструкций при работе с предметами той или иной формы. Этим набором инструкций и ограничивается область применения конкретной системы. Умение же анализировать объект позволило бы расширить область применения той или иной роботизированной системы. Более того, так как взаимодействие с объектом происходит в трёхмерном пространстве, то и анализировать форму тоже необходимо в трёх измерениях.
Существует множество решений, позволяющих реконструировать трёхмерную модель по одному изображению, однако ни одно из этих решений не реализует принцип, позволяющий извлекать несколько трёхмерных моделей из одного изображения реального мира.
Обзор существующих подходов
Решение, выполняющее поставленную задачу должно включать в себя две составляющие:
– Решение, позволяющее производить детектирование и извлечение интересующих объектов из изображений реального мира
– Решение, реконструирующее трёхмерную модель из извлечённого изображения
Детектирование объектов
Для оценки качественной работы алгоритмов будет использоваться метрика средней точности (Average Precision, AP), где точность вычисляется как
Precision =
TP — истинно-положительное решение
FP — ложно-положительное решение
Faster R-CNN [1] (Region-based Convolutional Neural Networks)
Faster R-CNN представляет собой усовершенствованную версию
архитектуры R-CNN.
R-CNN
Суть заключается в предсказании регионов, используя процесс, называемый выборочный поиск (Selective search). Данный процесс “смотрит” на изображение через “окна” разных размеров и для каждых размеров пытается сгруппировать пиксели, основываясь на цвете, интенсивности, текстуре для того, чтобы идентифицировать объект.
AP архитектуры Faster R-CNN на датасете COCO составил 36.2
Реконструкция трёхмерной модели
Для оценки качества работы алгоритмов по извлечению трёхмерной модели будет использоваться за метрику будет взято Chamfer distance, которое характеризует схожесть двух облаков точек P1, P2 ⊂ R
В своём большинстве подходы представляют Т-образные архитектуры типа (encoder-decoder) для обучения моделей и L-образные архитектуры для их тестирования.
Во время обучения происходит процесс минимизации двух функций потерь, одна функция отвечает за соответствие трёхмерной модели её скрытому представлению, другая функция отвечает за соответствие скрытого представления трёхмерной модели скрытому представлению, полученному из двумерного изображения.
AtlasNet [2]: APapier-Mache Approach to Learning 3D Surface Generation
Алгоритм, главных особенностей данного подхода является представление объекта не в виде набора вокселей, а в виде полигональной сетки(меша), что упрощает восприятие формы глазом, а также является более продвинутым подходом. Авторы алгоритма представляют поверхность как топологическое пространство, которое локально напоминает Евклидову поверхность. Попыткой подхода является локальная аппроксимация целевой поверхности, путём отображения на неё множества прямоугольных элементов. Использование множества таких элементов позволяет моделировать сложные поверхности. Подобный подход применяется в технологии папье-маше, откуда и название у алгоритма.
Значение метрики Chamfer Distance при использовании данного подхода на датасете Pix3D [3] составило 0.126
Подход
В связи с меньшим значением метрики (меньше-лучше), а также более прогрессивным подходом к реконструкции модели объекта, было решено выбрать архитектуру AtlasNet, в качестве решения для SVR (Single View Reconstruction). Так же AtlasNet использует архитектуру ResNet в качестве энкодера для изображения, что будет полезным в дальнейшем.
В качестве детектора был выбран Faster-RCNN, а в качестве решения для SVR был выбран AtlasNet. Для реализации поставленного плана достаточно взять L-образную часть сети с весами, натренированными на необходимых данных. На вход же этой сети подать набор изображений, являющимися вырезанными участками исходного изображения, предоставленные детектором.
Такой подход является полностью рабочим, однако крайне затратным в плане вычислений и не оптимальным в архитектурном плане. Так как участки интересов (regions of interests, ROI) кодируются два раза. В первый раз энкодером Faster-RCNN (в составе целого изображения), а затем энкодером Atlasnet (как отдельные куски изображения). Принимая во внимание тот факт, что в обоих случаях используется архитектура ResNet, предобученная на ImageNet [4], то и особенности (features) извлекаются одни и те же на каждом этапе. Решением проблемы является отсечение энкодера в L-образной части и передача регионов интересов вместе с выделенными особенностями напрямую в декодер L-образной части.
Разработанное решение выполняет поставленные задачи, однако оно очень чувствительно к фону извлекаемого объекта, а также к пересечениям извлекаемого объекта с другими объектами. Это накладывает ограничения на область его применения. Проблема кроется в архитектурных особенностях сети AtlasNet, а также в типе данных, на которых эта сеть обучалась. Изображения, подаваемые на вход при обучении, были «идеальной версией» трёхмерных объектов, которые они представляли, с простым фоном, без наложений других объектов, под определёнными углами и так далее. Решением этой проблемы является модификация принципа генерации двумерных представлений трёхмерных объектов в угоду фотореалистичному качеству и построениям сложных сцен из реального мира, а также внедрение дополнительного модуля, выполняющего семантическую сегментацию в процесс тестирования, для того чтобы с более высокой точностью определять границы объекта и тем самым увеличить точность реконструкции.
Литература:
- Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks / Shaoqing Ren, Kaiming He, Ross B. Girshick, Jian Sun // CoRR. –– 2015. –– Vol. abs/1506.01497. –– 1506.01497.
- AtlasNet: A Papier-Mâché Approach to Learning 3D Surface Generation / Thibault Groueix, Matthew Fisher, Vladimir G. Kim et al. // CoRR. –– 2018. –– Vol. Abs/1802.05384. –– 1802.05384.
- Pix3D: Dataset and Methods for Single-Image 3D Shape Modeling / Xingyuan Sun, Jiajun Wu, Xiuming Zhang et al. // IEEE Conference on Computer Vision and Pattern Recognition (CVPR). –– 2018.
- ImageNet: A Large-Scale Hierarchical Image Database / J. Deng, W. Dong, R. Socher et al. // CVPR09. –– 2009.