Методы решения задачи детекции текста на изображениях

Тельбухов, Андрей Борисович; Наумов, Сергей Валерьевич; Прокопова, Виктория Викторовна; Инишева, Дарья Олеговна

Методы решения задачи детекции текста на изображениях

Авторы: Наумов Сергей Валерьевич, Прокопова Виктория Викторовна, Тельбухов Андрей Борисович, Инишева Дарья Олеговна

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №18 (256) май 2019 г.

Дата публикации: 05.05.2019 2019-05-05

Статья просмотрена: 1008 раз

Скачать электронную версию

Скачать Часть 2 (pdf)

Библиографическое описание:

Наумов, С. В. Методы решения задачи детекции текста на изображениях / С. В. Наумов, В. В. Прокопова, А. Б. Тельбухов, Д. О. Инишева. — Текст : непосредственный // Молодой ученый. — 2019. — № 18 (256). — С. 93-95. — URL: https://moluch.ru/archive/256/58755/ (дата обращения: 23.04.2025).

Обзор существующих подходов к решению задачи детекции текста на фотореалистичных изображениях.

Ключевые слова: детекция текста, компьютерное зрение, алгоритмы

1 . Введение. Распознавание текста на фотореалистичных изображениях становится всё более нужной и полезной задачей вследствие увеличения количества практических применений: анализ данных, понимание сцены, навигация роботов, поиск изображений и т. д.

В отличие от распознавания текста в документах, которое удовлетворительно решается с помощью современных систем оптического распознавания символов (OCR), локализация и распознавание текста сцены остается открытой проблемой. Факторы, способствующие усложнению проблемы, включают: неоднородный фон, необходимость компенсации эффекта перспективы (для документов достаточно поворота или поворота и масштабирования); в реальных текстах часто пишутся короткие отрывки на разных шрифтах и языках; выравнивание текста не соответствует строгим правилам печатных документов; многие слова являются именами собственными, что мешает эффективному использованию словаря и т. д.

2 . Подходы крешению задачи детекции текста. Впоследние два десятилетия исследователи предложили многочисленные методы обнаружения текстов в естественных изображениях или видео. Можно выделить три основных типа методов: на основе текстурного анализа, на основе компонентного анализа и гибридные методы.

2.1 . Методы на основе текстурного анализа. Метод на основе текстурного анализа обрабатывает тексты как особый тип текстуры и использует их свойства, такие как локальные интенсивности, отклики разных фильтров, Вейвлет-коэффициенты, для того чтобы различать текстовые и нетекстовые области на изображениях. Эти методы обычно дорогостоящие в вычислительном отношении, так как должно быть проверено большое количество местоположений текста и его масштабов. Кроме того, эти методы в основном обрабатывают горизонтальные тексты и чувствительны к поворотам и масштабированию.

Один из первых и простейших подходов на основе данного метода, был предложен в статье Zhong и соавт. [1]. В предложенном методе авторы использовали горизонтальную пространственную дисперсию для грубой локализации текстов, затем выполняется цветовая сегментация в локализованных областях для поиска текстов. Позже Li и соавт. [2] представили систему для обнаружения и отслеживания текстов в видео. В ней изображения разлагаются с использованием среднего значения Вейвлет-коэффициентов, а также моментов первого и второго порядка в качестве локальных признаков.

Рис. 1. Примеры обнаружения текста алгоритмом Kim [3]. Применяется как метод ранней стадии обнаружения текста. Применим только к относительно простым сценам

В другом методе Kim и соавт. [3] обучили классификатор SVM классифицировать каждый пиксель, используя непосредственно интенсивность пикселей в качестве локальной функции. Текстовые области были найдены с помощью адаптивного алгоритма сдвига среднего значения в картах вероятности. Этот метод дает отличные результаты обнаружения в изображениях или видео (рис. 1) с простыми фонами, но сложно обобщить этот метод для сложных естественных изображений сцены или видео.

2.2 . Методы на основе компонентного подхода. Методы, основанные на анализе отдельных объектов, сначала различными способами извлекают компоненты-кандидаты (например, с помощью кластеризации цветового пространства или выделения экстремальных областей), а затем отфильтровывают нетекстовые компоненты с использованием правил, разработанных вручную, или автоматически обучаемых классификаторов. Преимущественно, эти методы намного более эффективны, поскольку число обрабатываемых областей относительно невелико. Кроме того, эти методы нечувствительны к повороту, изменению масштаба и изменению шрифта. В последние годы данный подход стал основным в решении задачи детекции текста.

Рис. 2. Примеры обнаружения текста с помощью SWT

Используя свойство, состоящее в том, что символы имеют почти постоянную ширину обводки, Epshtein и соавт. [4] предложили новый оператор изображения: Преобразование ширины обводки (SWT). Этот оператор обеспечивает простой способ восстановления строк символов из карт границ и способен эффективно извлекать текстовые компоненты различных масштабов и направлений из сложных сцен (рис. 2). Однако этот метод также зависит от ряда определенных человеком правил и параметров и детектирует только горизонтальные тексты.

Рис. 3. Примеры обнаружения текста с использованием MSER

Neumann и соавт. [5] предложили алгоритм обнаружения текста, основанный на максимально устойчивых экстремальных областях (MSER). Этот алгоритм извлекает из исходных изображений области MSER в качестве кандидатов и удаляет недействительных кандидатов с использованием предварительно обученного классификатора (рис. 3). На более позднем этапе оставшиеся кандидаты группируются в текстовые строки с помощью ряда правил объединения. Однако такие правила объединения могут адаптироваться только к горизонтальным или почти горизонтальным текстам, поэтому этот алгоритм не может обрабатывать тексты с большим углом наклона.

3 . Заключение. Существующие методы распознавания текста на естественном фоне вполне неплохо справляются со своей задачей. Большинство опубликованных методов локализации и распознавания текста основаны на последовательной конвейерной обработке, состоящей из трех этапов — локализации текста, его сегментации и обработки с помощью инструментов оптического распознавания символов (OCR) для печатных документов. В таких подходах общее качество метода является продуктом показателей успешности каждого этапа, поскольку нет возможности уточнить решения, принятые на предыдущих этапах.

Литература:

Y. Zhong, K. Karu, and A. K. Jain. Locating text in complex color images. Pattern Recognition. 1995
H. P. Li, D. Doermann, and O. Kia. Automatic text detection and tracking in digital video. 2000.
K. I. Kim, K. Jung, and J. H. Kim. Texture-based approach for text detection in images using support vector machines and continuously adaptive mean shift algorithm. 2003.
B. Epshtein, E. Ofek, and Y. Wexler. Detecting text in natural scenes with stroke width transform. 2010.
L. Neumann and J. Matas. A method for text localization and recognition in real-world images. 2010

Основные термины (генерируются автоматически): MSER, OCR, SWT, обнаружение текста, распознавание текста, текст, текстурный анализ, SVM, оптическое распознавание символов, решение задачи.

Ключевые слова

компьютерное зрение, алгоритмы, детекция текста

детекция текста, компьютерное зрение, алгоритмы

Методы решения задачи детекции текста на изображениях

Библиографическое описание:

Ключевые слова

Похожие статьи

Сегментация изображения с помощью нейронных сетей на примере практической задачи

Обзор методов решения задачи удовлетворения ограничений

Характеристические подходы при распознавании изображений

Аспекты использования различных методов распознавания лиц в современных системах безопасности

Классификация изображений с помощью сверточных нейронных сетей

Восстановление смазанных изображений в условиях ограниченных ресурсов на мобильных платформах

Алгоритмы распознавания объектов

Векторизация слов для нечеткого поиска в вопросно-ответных системах

Использование регулярных выражений для эффективной работы с текстом

Технология обучения искусственных нейронных сетей методом обратного распространения ошибки при дешифрировании объектов дистанционного зондирования земли

Похожие статьи

Сегментация изображения с помощью нейронных сетей на примере практической задачи

Обзор методов решения задачи удовлетворения ограничений

Характеристические подходы при распознавании изображений

Аспекты использования различных методов распознавания лиц в современных системах безопасности

Классификация изображений с помощью сверточных нейронных сетей

Восстановление смазанных изображений в условиях ограниченных ресурсов на мобильных платформах

Алгоритмы распознавания объектов

Векторизация слов для нечеткого поиска в вопросно-ответных системах

Использование регулярных выражений для эффективной работы с текстом

Технология обучения искусственных нейронных сетей методом обратного распространения ошибки при дешифрировании объектов дистанционного зондирования земли

Ответим на ваш вопрос!