Приведены результаты моделирования работы и эффективность алгоритма объединения данных от видеокамеры и лидара.
Ключевые слова: протяженный объект, видеокамера, лидар.
Эффективность предложенного алгоритма объединения данных («слияния») от видеокамеры и лидара (либо радара) проверяется путем сравнения его производительности обучения и оценки с данными алгоритмов на основе одной видеокамеры или одного лидара. Два алгоритма на основе одного источника имеют ту же основу, что и предложенный алгоритм на основе объединения данных, но имеют одну решающую ветвь.
Предложенный алгоритм на основе объединения данных демонстрирует лучшую общую производительность, например, относительно метрики mAP (mean Average Precision, усредненная по классам средняя точность) [1]. По сравнению с двумя названными алгоритмами, основанными на одном источнике, предлагаемый подход обеспечивает наивысший истинно положительный прогноз, т. е. наибольшую вероятность обнаружения Р , и наименьший ложноотрицательный прогноз, т. е. наименьшую вероятность пропуска F . Статически фиксируем в табл. 1 количество ложно отрицательных и ложно положительных результатов значений названных параметров, обнаруженных предложенным алгоритмом,
Также визуализируем некоторые примеры ложно отрицательных и ложно положительных результатов на рис. 1–3. На рис. 1, а и b показаны два случая ложно отрицательных результатов. На рис. 1, а жилой дом слева был ошибочно идентифицирован как грузовой автомобиль, поскольку форма и цвет здания очень похожи на грузовой кузов фургона. На рис. 1, b дорожное покрытие с левой стороны было ошибочно идентифицировано как автомобиль из-за сходства между тенью задней части автомобиля на поверхности дороги и реальной задней частью автомобиля. Напротив, на рис. 1, с и d представлены два случая ложно положительных результатов. Велосипедист в правой части рис. 1, с и средняя часть велосипедиста на рис. 1, d были ошибочно идентифицированы как пешеходы. Хотя между нижними половинами велосипедиста и пешехода существует огромная разница, верхние половины очень похожи. Очевидно, что ложно отрицательные и ложно положительные результаты возникают, когда неправильно классифицированные объекты имеют форму, аналогичную форме правильных объектов.
Таблица 1
Количество ложно положительных и ложно отрицательных результатов
Автомобиль |
Велосипедист |
Пешеход |
|
Ложно положительный |
1202 |
89 |
374 |
Ложно отрицательный |
1495 |
92 |
285 |
Истинно положительный |
15636 |
761 |
1875 |
Рис. 1.Визуальные образцы ложно положительных и ложно отрицательных результатов алгоритма, основанного на «слиянии»
Чтобы более интуитивно сравнить предлагаемый алгоритм с алгоритмами, основанными на одном источнике, визуализируем некоторые результаты обнаружения в наборе данных KITTI [1] и проводим качественный анализ. На рис. 2, a и 3, a показано, что алгоритмы на основе одной видеокамеры и одного лидара не позволяют обнаружить пешехода, выходящего из автобуса. На рис. 2, b и 2, b показано, что алгоритмы на основе одной видеокамеры и одного лидара ошибочно обнаруживают три автомобиля в правом углу изображения. На рис. 2, c и 3, c алгоритм на основе одной видеокамеры ошибочно идентифицирует велосипедиста как пешехода, в то время как алгоритм на основе одного лидара не обнаруживает этот объект. На рис. 2, d и 3, d показано, что алгоритмы на основе одной видеокамеры и одного лидара пропускают обнаружение пешеходов, перекрытых автомобилями.
Рис. 2. Визуальные примеры результатов обнаружения на основе одиночной видеокамеры
Рис. 3. Визуальные примеры результатов обнаружения на основе одного лидара
Рис. 4 также показывает, что алгоритм, основанный на «слиянии», успешно обнаруживает все объекты и определяет их местоположение. Таким образом, предлагаемый алгоритм работает лучше, чем алгоритмы с одним источником, особенно при обнаружении объектов и определении положения небольших объектов, объектов на границе изображения и закрытых объектов.
Рис. 4. Визуальные образцы результатов обнаружения на основе «слияния»
Отметим, что существует возможность улучшить используемую сетевую архитектуру, внедрив в алгоритм «механизм внимания». Этот механизм поможет сети уделять больше внимания интересующим областям, что позволит сети собирать более широкий спектр контекстной информации. Сеть будет лучше подготовлена к составлению точных прогнозов на основе особенностей целей, выявленных ранее, что сведет к минимуму количество ложно отрицательных и ложно положительных результатов.
Литература:
- Mean Average Precision (mAP) in Object Detection [Электронный ресурс]. — URL: https://learnopencv.com/mean-average-precision-map-object-detection-model-evaluation-metric/ (дата обращения: 01.11.2023).
- Geiger, A., Lenz, P. & Urtasun, R. Are we ready for autonomous driving? The kitti vision benchmark suite [Электронный ресурс]. In IEEE Conference on Computer Vision and Pattern Recognition 3354–3361. https://doi.org/10.1109/CVPR.2012.6248074