Реализация системы распознавания и отслеживания лиц | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 28 декабря, печатный экземпляр отправим 1 января.

Опубликовать статью в журнале

Библиографическое описание:

Реализация системы распознавания и отслеживания лиц / И. А. Кононыхин, Ф. В. Ежов, Р. А. Мартынюк [и др.]. — Текст : непосредственный // Молодой ученый. — 2020. — № 28 (318). — С. 8-12. — URL: https://moluch.ru/archive/318/72492/ (дата обращения: 18.12.2024).



С целью повышения уровня общественной безопасности, ежегодно устанавливаются дополнительные камеры общественного видеонаблюдения. Благодаря интеграции систем распознавания лиц, задержание преступников и поиск видеодоказательств совершенного преступления стал в разы эффективнее. Однако на практике встречаются ситуации, при которых возможна идентификация личности лишь на небольшом участке области обзора камеры, вследствие чего информация о передвижении человека при исчезновении его лица из кадра теряется и дальнейшее идентифицирование его личности возможно только с использованием человеческих ресурсов. В данной статье представлено теоретическое описание системы распознавания и отслеживания лиц. С помощью эталонных фотографий выбранных личностей, система запоминает их лица. В случае появления во входном видеопотоке знакомых лиц, система распознает соответствующих людей и продолжает отслеживание даже в случае исчезновения лица из кадра. Для реализации описанной системы были рассмотрены такие задачи, как детекция объектов, идентификация личности, отслеживание перемещений и современные подходы в их решении.

Ключевые слова: обнаружение, распознавание, отслеживание.

Введение

В наши дни алгоритмы искусственного интеллекта в сфере компьютерного зрения занимают ключевое место в сфере безопасности и применяются не только частными компаниями, но и государственными организациями. В технически развитых городах-миллионниках благодаря камерам общественного видеонаблюдения, эффективность выполнения задач общественной безопасности возросла на порядок. Так, например, с внедрением системы распознавания лиц в Московском метро, ежемесячно задерживаются от пяти до десяти разыскиваемых преступников.

В данной работе представлено теоретическое описание и процесс разработки системы распознавания и отслеживания лиц, которая актуальна для следующих задач:

– Идентификация и отслеживание преступников.

– Поддержка и ускорение расследований

– Поиск пропавших детей и дезориентированных взрослых.

Для достижения данной цели были поставлены следующие задачи:

– Изучение современных технологий, лежащих в основе решения.

– Извлечение кадра из входного видеопотока.

– Детектирование областей, в которых находятся люди.

– Идентификация личностей обнаруженных людей по биометрическим данным.

– Соотношение идентификационной информации с областью, содержащей человека.

– Отслеживание передвижения людей от кадра к кадру.

В открытом доступе находятся множество подходов к решению поставленных задач по отдельности, но не было найдено ни одного открытого решения, которое бы реализовало описанную цель.

Задача детекции

Детектирование людей на изображениях, как и детектирование лиц являются частными задачами более общей — детектирования объектов. В этой статье для детекции людей на изображении используется самая известная модель детекции объектов — YOLOv3 [4]. С концепцией архитектуры энкодера-декодера и одностадийным подходом, данная сеть работает в три раза быстрее, чем SSD [8], и показывает точность, сравнимую с Faster-RCNN [7].

YOLOv3 (You Only Look Once) [4] — многоклассовый детектор объектов. Данная модель использует в качестве основы (backbone) сеть Darknet-53, состоящую из 53 сверточных слоев для извлечения признаков из изображения и применяет в своей архитектуре такие известные практики, как:

− Residual blocks with shortcut-connections. Как и в сетях семейства ResNet [5], такие блоки предотвращают затухание градиентов при обучении нейронных сетей, что позволяет использовать более глубокие архитектуры без потери качества их выразительности.

− Upsampling with concatenations of feature maps. Данный метод позволяет получить более значимую семантическую информацию из апсемплированных признаков и более точную информацию из ранних карт признаков.

RetinaFace

Для распознавания лиц на изображениях используется нейронная сеть RetinaFace. Несмотря на то, что обнаружение лиц является частным случаем задачи детекции объектов, было разработано множество решений, одним из которых является модель RetinaFace [3]. Данная нейронная сеть является устойчивым одностадийным детектором, предоставляющим попиксельную локализацию для лиц разного масштаба и показывающим наилучшую точность среди всех современных моделей на момент публикации в 2019 году. Принимая на вход изображение, данная модель выводит позитивные шаблоны, состоящие из векторов, содержащих вероятность принадлежности области к области лица, границы области лица, пять лицевых ориентиров и плотные 3D грани лица, спроецированные на плоскость изображения.

Идентификация личностей

Идентификация личности по биометрическим данным — самая обсуждаемая область компьютерного зрения последних нескольких лет. В рамках данной работы, в качестве биометрических данных будем рассматривать человеческие лица и подход, основанный на вычислении эмбеддингов.

В задаче идентификации личности одним из ключевых шагов является очистка изображения от лишней информации. Выделяя области, содержащие человеческие лица, мы оставляем все необходимое данные для вычисления признаков средствами сверточных нейронных сетей, которые и будут составлять наши эмбеддинги. Одной из моделей идентификации личности является FaceNet [2] — модель компании Google, представленная в 2015 году. Данная нейронная сеть обучена отображать область изображения, содержащую человеческое лицо в точку многомерного пространства, где расстояние между этими точками напрямую соответствует мере сходства лица. В статье [2] представлены особенности обучения данной сети, сравнение нескольких глубоких архитектур, их результаты и тестирование размерностей выходных векторов.

Отслеживание объектов

Задача отслеживания объектов в видеопотоке заключается в:

– Обнаружении заданных объектов на входном видеопотоке.

– Присвоении уникальных меток каждой области с объектом.

– Сопоставлении одних и тех же областей от кадра к кадру.

Одним из самых популярных и точных подходов к задаче отслеживания является алгоритм DeepSort [6]. Данный алгоритм представлен в 2017 году и является улучшением алгоритма SORT [1]. Используя сверточную нейронную сеть для интегрирования информации о внешнем виде, DeepSort показывает снижение в переключении идентификаторов на 45 % по сравнению со своим предшественником.

Общая структура

При реализации системы распознавания и отслеживания лиц, были выделены следующие этапы:

  1. Детектирование людей.
  2. Присвоение уникальных меток обнаруженным людям в соответствии с детекциями и уникальными метками на прошлом кадре (этап отслеживания).
  3. Детекция лиц.
  4. Идентификация личности.
  5. Соотношение лиц и людей на видеокадре.
  6. Соотношение идентификационной информации с уникальными метками.

Считывая новый кадр из видеопотока, первым делом YOLOv3 [4] определяет ограничивающие прямоугольники, в которых содержатся люди (1), после чего, DeepSort [6] присваивает этим областям уникальные метки

(2). Далее, подавая на вход весь кадр, RetinaFace [3] определяет границы области со всеми присутствующими лицами (3). Все эти области изображения подаются на вход модели FaceNet [2], которая выводит 128-мерные векторы признаков к каждой области.

Определение областей (1) и (3) происходит отдельно по всему кадру в силу архитектур используемых моделей. Такой подход предполагает более высокую скорость работы, в отличии от подачи на вход сети RetinaFace отдельных областей (1) изображения.

Для того, чтобы идентифицировать человека по его лицу с помощью эмбеддингов, нам нужны эталонные значения. Подготовив несколько изображений каждого человека, которого надо идентифицировать, мы считаем такие же векторы по каждой области лица, усредняем их и принимаем в качестве эталонных. Данный этап подготовки происходит до извлечения первого кадра из видеоряда.

После получения векторов по каждой области лица на текущем кадре, мы считаем l2-расстояние между эталонными и новыми, на основании чего делаем вывод, известен ли системе этот человек или нет, и если известен, то кто это, сохраняя полученные идентификационные метки (4), вместе с расстоянием в качестве значения уверенности.

Сохранив соотношения (1) с (2) и (3) с (4), мы соотносим (1) с (3) и с (4) следующим образом. Находим координаты середины ограничивающего лицо прямоугольника и смотрим, находится ли он в рассматриваемой области человека. Если находится, то запоминаем данное соотношение и переходим к следующему лицу.

После получения такого соотношения, мы сравниваем значение уверенности идентификационной информации (4) с соотношением, полученным на предыдущем кадре. Если расстояние между эмбеддингами меньше, то мы обновляем идентификационную информацию рассматриваемой области, в противном случае используем соотношение, вычисленное ранее.

Выводы

В работе исследованы и применены на практике современные нейросетевые подходы к решению поставленной задачи, в результате чего была разработана система определения и отслеживания людей. В ходе ее разработки были решены следующие практические задачи:

– Извлечение кадра из видеопотока.

– Детектирование областей, в которых находятся люди.

– Идентификация личности по биометрическим данным.

– Соотношение идентификационной информации с областью, содержащей человека.

– Отслеживание передвижения людей от кадра к кадру.

Литература:

  1. A. Bewley, G. Zongyuan, F. Ramos, and B. Upcroft. Simple online and realtime tracking. In ICIP, 2016, pp. 3464–3468.
  2. F. Schroff, D. Kalenichenko, and J. Philbin. Facenet: A unified embedding for face recognition and clustering. In CVPR, 2015.
  3. I. Krasin, T. Duerig, N. Alldrin, V. Ferrari, S. Abu-El-Haija, A. Kuznetsova, H. Rom, J. Uijlings, S. Popov, A. Veit, S. Belongie, V. Gomes, A. Gupta, C. Sun, G. Chechik, D. Cai, Z. Feng, D. Narayanan, K. Murphy. Openimages: A public dataset for large-scale multi-label and multi-class image classification. URL — https://storage.googleapis.com/openimages/web/index.html
  4. J. Deng, J. Guo, Y. Zhou, J. Yu, I. Kotsia, S. Zafeiriou. RetinaFace: Single-stage Dense Face Localisation in the Wild. arXiv eprint arXiv:1905.00641, 2019.
  5. K. Bernardin and R. Stiefelhagen, “Evaluating multiple object tracking performance: The CLEAR MOT metrics,” EURASIP J. Image Video Process, vol. 2008, 2008.
  6. L. Zheng, Z. Bie, Y. Sun, J. Wang, C. Su, S. Wang, and Q. Tian, “MARS: A video benchmark for large-scale person re-identification,” in ECCV, 2016.
  7. Q. Cao, L. Shen, W. Xie, O. M. Parkhi, and A. Zisserman. Vggface2: A dataset for recognising faces across pose and age. In FG, 2018.
  8. T.-Y. Lin, P. Dollar, R. Girshick, K. He, B. Hariharan, S. Belongie. Feature pyramid networks for object detection. In CVPR, 2017.
Основные термины (генерируются автоматически): идентификационная информация, Идентификация личности, кадр, нейронная сеть, задача, лицо, область, область лица, отслеживание лиц, Соотношение.


Похожие статьи

Психофизиологические аспекты личности, влияющие на искажение словесного портрета

На современном этапе развития государства и общества все еще не удалось исключить нарушение прав и свобод человека и гражданина. Учитывая тот факт, что защита прав — одна из приоритетных задач Российской Федерации, отечественная уголовно-правовая тео...

Особенности производства отдельных следственных действий при расследовании мошенничества в сфере компьютерной информации

В рамках данной статьи автором анализируются особенности производства отдельных следственных действий при расследовании мошенничества в сфере компьютерной информации. IP и IT-сферы являются особенными и специфическими, так как требуют специального по...

Поиск границ радужной оболочки при помощи свёрточных нейронных сетей

Технология идентификации личности по радужной оболочке глаза находит своё применение в самых разнообразных областях быта. Однако, её применение в устройствах с ограниченными вычислительными ресурсами, таких как современные смартфоны, может быть огран...

Применение систем технического зрения в диагностике автомобилей при эксплуатации

Огромный рост числа автомобилей заставляет задуматься об их качественном обслуживании, что гарантирует система технического зрения (СТЗ). В данной работе нами были рассмотрены общие требования к разрабатываемой системе, которые позволят легче внедрит...

Конструкция фотометрического пульсоксиметра для мочки уха с беспроводной связью

Конструкция большинства пульсоксиметров предусматривает снятие показаний с руки. Конструкция пульсометра, носимого на пальце неудобна для активного(подвижного) использования и мониторинга. Использование мочки уха для данной цели и внедрение функций б...

Принципы построения систем радиочастотной идентификации

Все большую популярность в России набирает технология RFID. Широкая популярность обуславливается дешевизной и простотой использования систем, построенных на основе данной технологии. Такие системы широко применяются в логистике, системах аутентификац...

Преимущества цифровой трансформации нефтегазовой отрасли: проект «Интеллектуальное месторождение»

В современных кризисных условиях на рынке энергоресурсов, в частности на рынке углеводородного сырья, для нефтегазодобывающих компаний на первое место выходит вопрос повышения эффективности производства, в том числе за счет автоматизации производстве...

Интернет-мошенничество как угроза экономической безопасности РФ

Интернет-мошенничество представляет собой одну из наиболее серьезных проблем современного общества, согласно российскому законодательству, которое определяет его как обман или злоупотребление доверием для хищения имущества или присвоения имущественны...

Обобщенный анализ существующих тенденций и достижений в области перспектив развития систем и средств беспилотных летательных аппаратов

На сегодняшний день в мире существует несколько основных тенденций в развитии БПЛА. Одна из них связана с увеличением автономности этих систем. Сегодня БПЛА способны выполнять задания без участия человека весь полет или выполнить автоматическую посад...

Визуальные коммуникации PR-кампаний

По мере роста интернет-коммуникаций PR-специалисты в своей деятельности всё больше прибегают к использованию визуального воздействия. Теоретик визуальной культуры и медиа Дж. Т. Митчелл в 1994 году, введя термин «визуальный переворот» и описывая пере...

Похожие статьи

Психофизиологические аспекты личности, влияющие на искажение словесного портрета

На современном этапе развития государства и общества все еще не удалось исключить нарушение прав и свобод человека и гражданина. Учитывая тот факт, что защита прав — одна из приоритетных задач Российской Федерации, отечественная уголовно-правовая тео...

Особенности производства отдельных следственных действий при расследовании мошенничества в сфере компьютерной информации

В рамках данной статьи автором анализируются особенности производства отдельных следственных действий при расследовании мошенничества в сфере компьютерной информации. IP и IT-сферы являются особенными и специфическими, так как требуют специального по...

Поиск границ радужной оболочки при помощи свёрточных нейронных сетей

Технология идентификации личности по радужной оболочке глаза находит своё применение в самых разнообразных областях быта. Однако, её применение в устройствах с ограниченными вычислительными ресурсами, таких как современные смартфоны, может быть огран...

Применение систем технического зрения в диагностике автомобилей при эксплуатации

Огромный рост числа автомобилей заставляет задуматься об их качественном обслуживании, что гарантирует система технического зрения (СТЗ). В данной работе нами были рассмотрены общие требования к разрабатываемой системе, которые позволят легче внедрит...

Конструкция фотометрического пульсоксиметра для мочки уха с беспроводной связью

Конструкция большинства пульсоксиметров предусматривает снятие показаний с руки. Конструкция пульсометра, носимого на пальце неудобна для активного(подвижного) использования и мониторинга. Использование мочки уха для данной цели и внедрение функций б...

Принципы построения систем радиочастотной идентификации

Все большую популярность в России набирает технология RFID. Широкая популярность обуславливается дешевизной и простотой использования систем, построенных на основе данной технологии. Такие системы широко применяются в логистике, системах аутентификац...

Преимущества цифровой трансформации нефтегазовой отрасли: проект «Интеллектуальное месторождение»

В современных кризисных условиях на рынке энергоресурсов, в частности на рынке углеводородного сырья, для нефтегазодобывающих компаний на первое место выходит вопрос повышения эффективности производства, в том числе за счет автоматизации производстве...

Интернет-мошенничество как угроза экономической безопасности РФ

Интернет-мошенничество представляет собой одну из наиболее серьезных проблем современного общества, согласно российскому законодательству, которое определяет его как обман или злоупотребление доверием для хищения имущества или присвоения имущественны...

Обобщенный анализ существующих тенденций и достижений в области перспектив развития систем и средств беспилотных летательных аппаратов

На сегодняшний день в мире существует несколько основных тенденций в развитии БПЛА. Одна из них связана с увеличением автономности этих систем. Сегодня БПЛА способны выполнять задания без участия человека весь полет или выполнить автоматическую посад...

Визуальные коммуникации PR-кампаний

По мере роста интернет-коммуникаций PR-специалисты в своей деятельности всё больше прибегают к использованию визуального воздействия. Теоретик визуальной культуры и медиа Дж. Т. Митчелл в 1994 году, введя термин «визуальный переворот» и описывая пере...

Задать вопрос