Методы решения задачи детекции текста на изображениях | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 30 ноября, печатный экземпляр отправим 4 декабря.

Опубликовать статью в журнале

Библиографическое описание:

Наумов, С. В. Методы решения задачи детекции текста на изображениях / С. В. Наумов, В. В. Прокопова, А. Б. Тельбухов, Д. О. Инишева. — Текст : непосредственный // Молодой ученый. — 2019. — № 18 (256). — С. 93-95. — URL: https://moluch.ru/archive/256/58755/ (дата обращения: 16.11.2024).



Обзор существующих подходов к решению задачи детекции текста на фотореалистичных изображениях.

Ключевые слова: детекция текста, компьютерное зрение, алгоритмы

1 . Введение. Распознавание текста на фотореалистичных изображениях становится всё более нужной и полезной задачей вследствие увеличения количества практических применений: анализ данных, понимание сцены, навигация роботов, поиск изображений и т. д.

В отличие от распознавания текста в документах, которое удовлетворительно решается с помощью современных систем оптического распознавания символов (OCR), локализация и распознавание текста сцены остается открытой проблемой. Факторы, способствующие усложнению проблемы, включают: неоднородный фон, необходимость компенсации эффекта перспективы (для документов достаточно поворота или поворота и масштабирования); в реальных текстах часто пишутся короткие отрывки на разных шрифтах и языках; выравнивание текста не соответствует строгим правилам печатных документов; многие слова являются именами собственными, что мешает эффективному использованию словаря и т. д.

2 . Подходы крешению задачи детекции текста. Впоследние два десятилетия исследователи предложили многочисленные методы обнаружения текстов в естественных изображениях или видео. Можно выделить три основных типа методов: на основе текстурного анализа, на основе компонентного анализа и гибридные методы.

2.1 . Методы на основе текстурного анализа. Метод на основе текстурного анализа обрабатывает тексты как особый тип текстуры и использует их свойства, такие как локальные интенсивности, отклики разных фильтров, Вейвлет-коэффициенты, для того чтобы различать текстовые и нетекстовые области на изображениях. Эти методы обычно дорогостоящие в вычислительном отношении, так как должно быть проверено большое количество местоположений текста и его масштабов. Кроме того, эти методы в основном обрабатывают горизонтальные тексты и чувствительны к поворотам и масштабированию.

Один из первых и простейших подходов на основе данного метода, был предложен в статье Zhong и соавт. [1]. В предложенном методе авторы использовали горизонтальную пространственную дисперсию для грубой локализации текстов, затем выполняется цветовая сегментация в локализованных областях для поиска текстов. Позже Li и соавт. [2] представили систему для обнаружения и отслеживания текстов в видео. В ней изображения разлагаются с использованием среднего значения Вейвлет-коэффициентов, а также моментов первого и второго порядка в качестве локальных признаков.

Рис. 1. Примеры обнаружения текста алгоритмом Kim [3]. Применяется как метод ранней стадии обнаружения текста. Применим только к относительно простым сценам

В другом методе Kim и соавт. [3] обучили классификатор SVM классифицировать каждый пиксель, используя непосредственно интенсивность пикселей в качестве локальной функции. Текстовые области были найдены с помощью адаптивного алгоритма сдвига среднего значения в картах вероятности. Этот метод дает отличные результаты обнаружения в изображениях или видео (рис. 1) с простыми фонами, но сложно обобщить этот метод для сложных естественных изображений сцены или видео.

2.2 . Методы на основе компонентного подхода. Методы, основанные на анализе отдельных объектов, сначала различными способами извлекают компоненты-кандидаты (например, с помощью кластеризации цветового пространства или выделения экстремальных областей), а затем отфильтровывают нетекстовые компоненты с использованием правил, разработанных вручную, или автоматически обучаемых классификаторов. Преимущественно, эти методы намного более эффективны, поскольку число обрабатываемых областей относительно невелико. Кроме того, эти методы нечувствительны к повороту, изменению масштаба и изменению шрифта. В последние годы данный подход стал основным в решении задачи детекции текста.

Рис. 2. Примеры обнаружения текста с помощью SWT

Используя свойство, состоящее в том, что символы имеют почти постоянную ширину обводки, Epshtein и соавт. [4] предложили новый оператор изображения: Преобразование ширины обводки (SWT). Этот оператор обеспечивает простой способ восстановления строк символов из карт границ и способен эффективно извлекать текстовые компоненты различных масштабов и направлений из сложных сцен (рис. 2). Однако этот метод также зависит от ряда определенных человеком правил и параметров и детектирует только горизонтальные тексты.

Рис. 3. Примеры обнаружения текста с использованием MSER

Neumann и соавт. [5] предложили алгоритм обнаружения текста, основанный на максимально устойчивых экстремальных областях (MSER). Этот алгоритм извлекает из исходных изображений области MSER в качестве кандидатов и удаляет недействительных кандидатов с использованием предварительно обученного классификатора (рис. 3). На более позднем этапе оставшиеся кандидаты группируются в текстовые строки с помощью ряда правил объединения. Однако такие правила объединения могут адаптироваться только к горизонтальным или почти горизонтальным текстам, поэтому этот алгоритм не может обрабатывать тексты с большим углом наклона.

3 . Заключение. Существующие методы распознавания текста на естественном фоне вполне неплохо справляются со своей задачей. Большинство опубликованных методов локализации и распознавания текста основаны на последовательной конвейерной обработке, состоящей из трех этапов — локализации текста, его сегментации и обработки с помощью инструментов оптического распознавания символов (OCR) для печатных документов. В таких подходах общее качество метода является продуктом показателей успешности каждого этапа, поскольку нет возможности уточнить решения, принятые на предыдущих этапах.

Литература:

  1. Y. Zhong, K. Karu, and A. K. Jain. Locating text in complex color images. Pattern Recognition. 1995
  2. H. P. Li, D. Doermann, and O. Kia. Automatic text detection and tracking in digital video. 2000.
  3. K. I. Kim, K. Jung, and J. H. Kim. Texture-based approach for text detection in images using support vector machines and continuously adaptive mean shift algorithm. 2003.
  4. B. Epshtein, E. Ofek, and Y. Wexler. Detecting text in natural scenes with stroke width transform. 2010.
  5. L. Neumann and J. Matas. A method for text localization and recognition in real-world images. 2010
Основные термины (генерируются автоматически): MSER, OCR, SWT, обнаружение текста, распознавание текста, текст, текстурный анализ, SVM, оптическое распознавание символов, решение задачи.


Ключевые слова

компьютерное зрение, алгоритмы, детекция текста

Похожие статьи

Сегментация изображения с помощью нейронных сетей на примере практической задачи

В статье авторы приводят способ решения задачи сегментации изображения на примере задачи перекраски стен на фотографии комнаты.

Обзор методов решения задачи удовлетворения ограничений

Характеристические подходы при распознавании изображений

В данной работе рассматриваются характеристические методы идентификации. Они применяются в распознавании изображений, что является актуальным на сегодняшний день.

Аспекты использования различных методов распознавания лиц в современных системах безопасности

В статье авторы стараются обозреть существующие аспекты использования различных методов распознавания лиц в современных системах безопасности.

Классификация изображений с помощью сверточных нейронных сетей

В статье автор исследует использование сверточных сетей для детектирования изображений.

Восстановление смазанных изображений в условиях ограниченных ресурсов на мобильных платформах

В работе решается задача восстановления смазанных изображений с использованием алгоритмов восстановления изображений в условиях ограниченных ресурсов на мобильных платформах.

Алгоритмы распознавания объектов

В данной статье рассмотрены алгоритмы распознавания объектов на изображении, проведен анализ методов, применяемых при обработке изображений, а также описано использование средств машинного обучения в рамках работы с изображениями

Векторизация слов для нечеткого поиска в вопросно-ответных системах

В статье автор исследует применение векторизации слов для нечеткого поиска в вопросно-ответных системах, путем улучшения точности через современные подходы к векторизации слов и поиск семантически близких слов.

Использование регулярных выражений для эффективной работы с текстом

В статье рассматриваются вопросы методики обучения регулярным выражениям в профильном обучении.

Технология обучения искусственных нейронных сетей методом обратного распространения ошибки при дешифрировании объектов дистанционного зондирования земли

В статье рассматриваются преимущества искусственных нейронных сетей в задачах дешифрирования объектов дистанционного зондирования земли. Проведен анализ метода обучения обратного распространения ошибки, отличающийся от известных тем, что применение е...

Похожие статьи

Сегментация изображения с помощью нейронных сетей на примере практической задачи

В статье авторы приводят способ решения задачи сегментации изображения на примере задачи перекраски стен на фотографии комнаты.

Обзор методов решения задачи удовлетворения ограничений

Характеристические подходы при распознавании изображений

В данной работе рассматриваются характеристические методы идентификации. Они применяются в распознавании изображений, что является актуальным на сегодняшний день.

Аспекты использования различных методов распознавания лиц в современных системах безопасности

В статье авторы стараются обозреть существующие аспекты использования различных методов распознавания лиц в современных системах безопасности.

Классификация изображений с помощью сверточных нейронных сетей

В статье автор исследует использование сверточных сетей для детектирования изображений.

Восстановление смазанных изображений в условиях ограниченных ресурсов на мобильных платформах

В работе решается задача восстановления смазанных изображений с использованием алгоритмов восстановления изображений в условиях ограниченных ресурсов на мобильных платформах.

Алгоритмы распознавания объектов

В данной статье рассмотрены алгоритмы распознавания объектов на изображении, проведен анализ методов, применяемых при обработке изображений, а также описано использование средств машинного обучения в рамках работы с изображениями

Векторизация слов для нечеткого поиска в вопросно-ответных системах

В статье автор исследует применение векторизации слов для нечеткого поиска в вопросно-ответных системах, путем улучшения точности через современные подходы к векторизации слов и поиск семантически близких слов.

Использование регулярных выражений для эффективной работы с текстом

В статье рассматриваются вопросы методики обучения регулярным выражениям в профильном обучении.

Технология обучения искусственных нейронных сетей методом обратного распространения ошибки при дешифрировании объектов дистанционного зондирования земли

В статье рассматриваются преимущества искусственных нейронных сетей в задачах дешифрирования объектов дистанционного зондирования земли. Проведен анализ метода обучения обратного распространения ошибки, отличающийся от известных тем, что применение е...

Задать вопрос