В данной работе рассматриваются характеристические методы идентификации. Они применяются в распознавании изображений, что является актуальным на сегодняшний день.
Ключевые слова: машинное зрение, распознавание, характеристический метод, сравнение с шаблоном, сравнение топологических графов, метод опорных векторов.
Как видит человек? Как он обрабатывает полученную информацию? Как он принимает решение о дальнейших действиях? Реальное изображение мира попадает на сетчатку глаза человека, происходит некий анализ: сначала информация попадает в зрительную кору головного мозга, где происходит более полный анализ, после информация распространяется в остальные отделы мозга, где происходит сравнение полученных данных и уже имеющихся, чтобы сделать вывод об увиденном. И только после всех этих этапов мозг принимает решение о дальнейших действиях. На основе человеческого организма реализован принцип машинного зрения.
Исследование машинного зрения началось еще в 50-х годах и продолжается до сих пор. Сейчас машина может распознать определенный объект. Но уже с другим предметом для нее возникнут трудности. Дело в том, что у человека кора головного мозга выполняет множество функций: чувства, восприятие... А также множество жизненных уроков, полученных из внешнего мира. На этом этапе остановилось развитие машинного зрения. Потому что тема работы человеческого мозга не исследована до конца.
Однако даже на данном этапе развития машинного зрения возможно, например, распознать эмоции человека, беспилотные автомобили могут считывать дорожные знаки, роботы в промышленности могут замечать некоторые проблемы производства.
Автоматическая локализация лица человека на изображении и последующая идентификация относятся к понятию распознавания лиц.
Наиболее актуальные на текущий момент системы распознавания лиц часто используют представление лиц в виде векторов в некотором линейном пространстве (embedding). Статьи с описаниями работы обучающих алгоритмов обычно концентрируют внимание на улучшении качества этого представления, но не дают конкретных советов по его использованию за пределами сравнения двух изображений — советов по выбору алгоритмов кластеризации таких векторов для задач распознавания.
Все методы распознавания лиц делятся на две основные категории: геометрические, или характеристические, где анализируются различные особенности лица по отдельности [3, с. 2] и целостные подходы, такие, как Eigenfaces и нейросети. В геометрическом подходе [4] мы сначала преобразовываем входное изображение, чтобы уменьшить влияние шумов, а затем выделяем из него характерные лицевые особенности, такие как глаза, нос, рост, и т. д., и вычисляем геометрические особенности их расположения, таким образом уменьшая размерность входного изображения до размерности вектора геометрических особенностей лица. Затем используются стандартные статистические подходы по распознаванию шаблонов, чтобы сравнить полученные вектор с хранящимися в базе. Данный подход наиболее распространён до начала 2010-х годов.
Характеристические подходы к распознаванию лиц можно поделить на несколько подтипов:
- Сравнение с шаблоном. Данный подход применим тогда, когда и обучающая выборка, и тестовый случай представлены не одним изображением, а целым набором, а иногда даже разнородными данными (фото и видео разного качества). Шаблон лица получают путём усреднения интенсивности пикселей, соответствующих одинаковым точкам лица, для чего изображения сначала стараются выровнять, используя различные алгоритмы. Оценку схожести двух наборов вычисляют либо как меру схожести их шаблонов [5, с. 15], либо путём попарного сравнения изображений, а затем усреднением по всем парам. Помимо усреднения интенсивностей более недавние работы предлагают усреднение других особенностей изображения, например, SIFT дескрипторов [6, с. 3]
- Сравнение топологических графов. Подход был вдохновлён открытием принципов работы клеток зрительных отделов коры млекопитающих. Многие из клеток специализируются на обнаружении простых структур, таких как углы или прямые линии, идущие под определённым углом. Запрограммированные людьми детекторы, такие как SIFT, SURF, фильтры Габора, используют в своей основе похожих функции. С их помощью на изображении осуществляется поиск ключевых точек лица — глаз, носа, рта и т. д. Затем полученный на их основе граф лица сравнивается с графами, хранящимися в базе, по определённому алгоритму Данный подход плохо справляется с перекрытием части лица, т. к. граф получается не полным. Сейчас метод на основе фильтров Габора широко используется для распознавания печатного текста. [7, с. 135].
- Метод опорных векторов. Данный метод схож с предыдущим в том, что для получения начальной информации используются рукописные фильтры, характеризующие особые точки изображения. Одна затем вместо топологического графа применяется метод SVM (Support Vector Machine). Метод SVM был изначально предложен в [5, с. 7] для решения задач классификации (что идентично задаче идентификации, если мы примем фото одного человека за класс), но затем расширен и применён для задач регрессии [6, с. 35] (количественного предсказания). Основная идея метода — перевод исходных векторов в пространство более высокой размерности и поиск разделяющей гиперплоскости с максимальным зазором в этом пространстве. Две параллельных гиперплоскости строятся по обеим сторонам гиперплоскости, разделяющей классы. Разделяющей гиперплоскостью будет гиперплоскость, максимизирующая расстояние до двух параллельных гиперплоскостей. Алгоритм работает в предположении, что чем больше разница или расстояние между этими параллельными гиперплоскостями, тем меньше будет средняя ошибка классификатора. Особым свойством метода опорных векторов является непрерывное уменьшение эмпирической ошибки классификации и увеличение зазора, поэтому метод также известен как метод классификатора с максимальным зазором.
Литература:
- FaceNet: A Unified Embedding for Face Recognition and Clustering // arXiv.org. URL: https://arxiv.org/abs/1503.03832 (дата обращения: 09.12.2019).
- Yaniv Taigman, Ming Yang, Marc'Aurelio Ranzato, Lior Wolf. DeepFace: Closing the Gap to Human-Level Performance in Face Verification // Conference on Computer Vision and Pattern Recognition (CVPR). — 2014. — № 978–1–4799–5118–5. — С. 2.
- G. Yongsheng and M. K. H. Leung, “Face recognition using line edge map”, IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol.24, C. 17.
- Manjunath, B., Chellappa, R. & von der Malsburg, C. (1992), «A Feature Based Approach to Face Recognition», IEEE Conference Proceedings on Computer Vision and Pattern Recognition.
- J. Hamm and D. D. Lee. Grassmann discriminant analysis: a unifying view on subspace-based learning. Int. Conf. Mach. Learning, стр. 376–383, 2008
- J. Dong and S. Soatto. Domain-size pooling in local descriptors: Dsp-sift. InProc. Conf. Comput. Vision Pattern Recognition, стр. 5097–5106, 2015.
- S Sabari Raju, Peeta Basa Pati and A G Ramakrishnan, “Gabor Filter Based Block Energy Analysis for Text extraction from Digital Document Images,” Proc. First International Workshop on Document Image Analysis for Libraries (DIAL-04), Palo Alto, USA, Jan. 2004, pp. 233–243.