Обзор существующих подходов к решению задачи детекции текста на фотореалистичных изображениях.
Ключевые слова: детекция текста, компьютерное зрение, алгоритмы
1 . Введение. Распознавание текста на фотореалистичных изображениях становится всё более нужной и полезной задачей вследствие увеличения количества практических применений: анализ данных, понимание сцены, навигация роботов, поиск изображений и т. д.
В отличие от распознавания текста в документах, которое удовлетворительно решается с помощью современных систем оптического распознавания символов (OCR), локализация и распознавание текста сцены остается открытой проблемой. Факторы, способствующие усложнению проблемы, включают: неоднородный фон, необходимость компенсации эффекта перспективы (для документов достаточно поворота или поворота и масштабирования); в реальных текстах часто пишутся короткие отрывки на разных шрифтах и языках; выравнивание текста не соответствует строгим правилам печатных документов; многие слова являются именами собственными, что мешает эффективному использованию словаря и т. д.
2 . Подходы крешению задачи детекции текста. Впоследние два десятилетия исследователи предложили многочисленные методы обнаружения текстов в естественных изображениях или видео. Можно выделить три основных типа методов: на основе текстурного анализа, на основе компонентного анализа и гибридные методы.
2.1 . Методы на основе текстурного анализа. Метод на основе текстурного анализа обрабатывает тексты как особый тип текстуры и использует их свойства, такие как локальные интенсивности, отклики разных фильтров, Вейвлет-коэффициенты, для того чтобы различать текстовые и нетекстовые области на изображениях. Эти методы обычно дорогостоящие в вычислительном отношении, так как должно быть проверено большое количество местоположений текста и его масштабов. Кроме того, эти методы в основном обрабатывают горизонтальные тексты и чувствительны к поворотам и масштабированию.
Один из первых и простейших подходов на основе данного метода, был предложен в статье Zhong и соавт. [1]. В предложенном методе авторы использовали горизонтальную пространственную дисперсию для грубой локализации текстов, затем выполняется цветовая сегментация в локализованных областях для поиска текстов. Позже Li и соавт. [2] представили систему для обнаружения и отслеживания текстов в видео. В ней изображения разлагаются с использованием среднего значения Вейвлет-коэффициентов, а также моментов первого и второго порядка в качестве локальных признаков.
Рис. 1. Примеры обнаружения текста алгоритмом Kim [3]. Применяется как метод ранней стадии обнаружения текста. Применим только к относительно простым сценам
В другом методе Kim и соавт. [3] обучили классификатор SVM классифицировать каждый пиксель, используя непосредственно интенсивность пикселей в качестве локальной функции. Текстовые области были найдены с помощью адаптивного алгоритма сдвига среднего значения в картах вероятности. Этот метод дает отличные результаты обнаружения в изображениях или видео (рис. 1) с простыми фонами, но сложно обобщить этот метод для сложных естественных изображений сцены или видео.
2.2 . Методы на основе компонентного подхода. Методы, основанные на анализе отдельных объектов, сначала различными способами извлекают компоненты-кандидаты (например, с помощью кластеризации цветового пространства или выделения экстремальных областей), а затем отфильтровывают нетекстовые компоненты с использованием правил, разработанных вручную, или автоматически обучаемых классификаторов. Преимущественно, эти методы намного более эффективны, поскольку число обрабатываемых областей относительно невелико. Кроме того, эти методы нечувствительны к повороту, изменению масштаба и изменению шрифта. В последние годы данный подход стал основным в решении задачи детекции текста.
Рис. 2. Примеры обнаружения текста с помощью SWT
Используя свойство, состоящее в том, что символы имеют почти постоянную ширину обводки, Epshtein и соавт. [4] предложили новый оператор изображения: Преобразование ширины обводки (SWT). Этот оператор обеспечивает простой способ восстановления строк символов из карт границ и способен эффективно извлекать текстовые компоненты различных масштабов и направлений из сложных сцен (рис. 2). Однако этот метод также зависит от ряда определенных человеком правил и параметров и детектирует только горизонтальные тексты.
Рис. 3. Примеры обнаружения текста с использованием MSER
Neumann и соавт. [5] предложили алгоритм обнаружения текста, основанный на максимально устойчивых экстремальных областях (MSER). Этот алгоритм извлекает из исходных изображений области MSER в качестве кандидатов и удаляет недействительных кандидатов с использованием предварительно обученного классификатора (рис. 3). На более позднем этапе оставшиеся кандидаты группируются в текстовые строки с помощью ряда правил объединения. Однако такие правила объединения могут адаптироваться только к горизонтальным или почти горизонтальным текстам, поэтому этот алгоритм не может обрабатывать тексты с большим углом наклона.
3 . Заключение. Существующие методы распознавания текста на естественном фоне вполне неплохо справляются со своей задачей. Большинство опубликованных методов локализации и распознавания текста основаны на последовательной конвейерной обработке, состоящей из трех этапов — локализации текста, его сегментации и обработки с помощью инструментов оптического распознавания символов (OCR) для печатных документов. В таких подходах общее качество метода является продуктом показателей успешности каждого этапа, поскольку нет возможности уточнить решения, принятые на предыдущих этапах.
Литература:
- Y. Zhong, K. Karu, and A. K. Jain. Locating text in complex color images. Pattern Recognition. 1995
- H. P. Li, D. Doermann, and O. Kia. Automatic text detection and tracking in digital video. 2000.
- K. I. Kim, K. Jung, and J. H. Kim. Texture-based approach for text detection in images using support vector machines and continuously adaptive mean shift algorithm. 2003.
- B. Epshtein, E. Ofek, and Y. Wexler. Detecting text in natural scenes with stroke width transform. 2010.
- L. Neumann and J. Matas. A method for text localization and recognition in real-world images. 2010