В этой статье автор предоставил оценку скорости обнаружения лица в сложных условиях, на примере трех известных моделей глубокого обучения для обнаружения объектов (в данном случае производится обнаружение лица): MobileNetV2 [1], InceptionV3 [2] и EfficientNetV2M [3]. Эти модели получили широкое распространение среди задач компьютерного зрения благодаря своей эффективности. Полученные результаты позволяют оценить пригодность предлагаемых моделей для решения реальных задач, где решающее значение имеет надежное и быстрое обнаружение лица.
Ключевые слова: обнаружение лиц, глубокое обучение, модели глубокого обучения, компьютерное зрение, MobileNetV2, InceptionV3 и EfficientNetV2M.
Обнаружение лица является фундаментальной задачей в компьютерном зрении, находит своем применение в различных сферах, начиная от безопасности до дополненной реальности. Обнаружение лица в сложных условиях, таких как недостаточная освещенность, окклюзии или размытые изображения, является сложной задачей, требующей надежных алгоритмов. Модели глубокого обучения стали универсальным решением для множества задач компьютерного зрения, включая обнаружение лиц. Их способность автоматически изучать сложные шаблоны и особенности из больших наборов данных существенно повысила точность и надежность алгоритмов обнаружения объектов. Компьютерное зрение постоянно совершенствуется, взаимосвязь между алгоритмической эффективностью и точностью модели глубокого обучения остается важнейшим фактором для исследователей.
Модели глубокого обучения предоставляют потенциальное решение для этой задачи, но необходим анализ их производительности в сложных условиях для выбора наилучшей модели.
Оценка выполняется в двух конфигурациях: вычисление на центральном процессоре и вычисление на графическом процессоре. Результаты дают ценную информацию об эффективности этих алгоритмов в реальных сценариях.
Для оценки моделей глубокого обучения использовались два ключевых показателя эффективности:
- Количество кадров в секунду: среднее количество кадров, обрабатываемых каждым алгоритмом в секунду. Более высокие значения указывают на более быструю обработку;
- Среднее время, затраченное на обнаружение лица: среднее время (в секундах), затрачиваемое каждым алгоритмом на обнаружение лица. Меньшие значения указывают на более быстрое выполнение.
Частота кадров и время, затрачиваемое на обнаружение лица, для каждой модели, при вычислении на центральном процессоре, представлены в таблице 1.
Таблица 1
Показатели эффективности при вычислении на центральном процессоре
Модель |
Количество кадров в секунду (среднее значение) |
Время, затраченное на обнаружение лица, с |
MobileNetV2 |
6.42 |
0.1557 |
InceptionV3 |
3.97 |
0.2520 |
EfficientNetV2M |
2.60 |
0.3844 |
MobileNetV2 демонстрирует самую высокую частоту кадров, что указывает на его пригодность для распознавания лиц в режиме реального времени в средах с ограниченными ресурсами. Среднее время, затрачиваемое на обнаружение лица, составляет 0,1557 с., что делает его приемлемым вариантом для приложений с не жесткими требованиями к времени обнаружения лица. Облегченная архитектура позволяет этой модели глубокого обучения эффективно обрабатывать изображения, что делает эту модель глубокого обучения подходящим выбором для сценариев с ограниченными вычислительными ресурсами.
InceptionV3 значительно медленнее в отношении частоты кадров по сравнению с MobileNetV2 и не обеспечивает приемлемую производительность для обнаружения лица, при вычислении на центральном процессоре. Среднее время, затрачиваемое на обнаружение лица, составляет 0.2520 с. и находится в допустимых пределах для многих приложений.
EfficientNetV2M значительно медленнее в отношении частоты кадров по сравнению с MobileNetV2 и не обеспечивает приемлемую производительность для обнаружения лица, при вычислении на центральном процессоре. Среднее время, затрачиваемое на обнаружение лица, составляет 0.3844 с. и находится в допустимых пределах для многих приложений.
Частота кадров и время, затрачиваемое на обнаружение лица, для каждой модели, при вычислении на графическом процессоре, представлены в таблице 2.
Таблица 2
Показатели эффективности при вычислении на графическом процессоре
Модель |
Количество кадров в секунду (среднее значение) |
Время, затраченное на обнаружение лица, с |
MobileNetV2 |
13.82 |
0.0723 |
InceptionV3 |
13.93 |
0.0718 |
EfficientNetV2M |
12.13 |
0.0825 |
MobileNetV2, InceptionV3 и EfficientNetV2M: все три модели демонстрируют значительное улучшение производительности при выполнении на графическом процессоре. Частота кадров значительно увеличивается, а среднее время, затрачиваемое на распознавание лиц, существенно снижается, что делает их идеальным выбором для приложений, где скорость имеет первостепенное значение. Увеличение эффективности подчеркивает важность аппаратного ускорения в задачах, которые выполняются в реальном времени.
Примечательно, что вариации моделей глубокого обучения оказывают минимальное влияние на производительность, указывая на то, что алгоритмы одинаково высокоэффективны при вычислении на графическом процессоре. Поэтому, при выборе модели следует также учесть точность обнаружения (потери регрессии). Минимальное среднее значение потери регрессии для каждой модели представлено в таблице 3.
Таблица 3
Результаты оценки моделей
Модель |
Потери регрессии |
MobileNetV2 |
0.01833339035511017 |
InceptionV3 |
0.016260862350463867 |
EfficientNetV2M |
0.009030135348439217 |
Наивысшею точность обеспечивает модель EfficientNetV2M. Учитывая полученные значения, можно сделать вывод, что оптимальным решением для обнаружения лица в сложных условиях является применение модели EfficientNetV2M и направление вычислительной нагрузки на графический процессор.
Оценка скорости обнаружения лица в сложных условиях позволила получить ценную информацию об их производительности как на платформе центрального процессора, так и на графическом процессоре. Модели глубокого обучения MobileNetV2, InceptionV3 и EfficientNetV2M демонстрируют высокую производительность в сложных сценариях, причем EfficientNetV2M является самым высокопроизводительным решением. Кроме того, полученные результаты подчеркивают важность не только выбора модели глубокого обучения, но и аппаратного обеспечения, на котором выполняется алгоритм, особенно в задачах, выполняемых в режиме реального времени.
MobileNetV2 является самой быстрой моделью с точки зрения времени обнаружения, за ней следуют EfficientNetV2M и InceptionV3. Этот компромисс между скоростью и точностью следует учитывать при выборе модели для конкретных приложений. MobileNetV2 особенно хорошо подходит для систем на базе центрального процессора, в тоже время все три предложенных алгоритма рекомендуют задействовать графический процессор. Полученные результаты помогут выбрать наиболее подходящую модель глубокого обучения для обнаружения лица в сложных условиях.
Литература:
1. MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications. — Текст: электронный // arXiv.org e-Print archive: [сайт]. — URL: https://arxiv.org/abs/1704.04861 (дата обращения: 03.09.2023).
2. Rethinking the Inception Architecture for Computer Vision. — Текст: электронный // arXiv.org e-Print archive: [сайт]. — URL: https://arxiv.org/abs/1512.00567 (дата обращения: 03.09.2023).
3. EfficientNetV2: Smaller Models and Faster Training. — Текст: электронный // arXiv.org e-Print archive: [сайт]. — URL: https://arxiv.org/abs/2104.00298 (дата обращения: 03.09.2023).