Методы определения авторства рукописного текста | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 26 октября, печатный экземпляр отправим 30 октября.

Опубликовать статью в журнале

Библиографическое описание:

Инишева, Д. О. Методы определения авторства рукописного текста / Д. О. Инишева, С. В. Наумов, В. В. Прокопова, А. Б. Тельбухов. — Текст : непосредственный // Молодой ученый. — 2019. — № 18 (256). — С. 88-90. — URL: https://moluch.ru/archive/256/58718/ (дата обращения: 17.10.2024).



Введение

Задача классификации изображений является актуальной в настоящее время. Существует множество областей, где решение данной задачи востребовано, например, судебное делопроизводство или компании с повышенным требованием к безопасности.

В данной статье рассматриваются методы классификации изображений с отсканированным рукописным текстом по авторам.

Распознавание рукописных символов делится на 2 группы:

− Распознавание рукописной информации, введенной с помощью специальных сенсорных экранов (online).

− Распознавание рукописной информации с бумажных носителей (offline).

Онлайн распознавание текстов учитывает начертательные особенности человека — силы нажима, быстроты написания. В свою очередь, офлайн распознавание текста получает на вход уже готовый документ, поэтому является более сложным процессом. В данной статье рассматривается только офлайн распознавание.

Также, рассматриваются только пространственные признаки рукописного текста — это рассмотрение объекта с точки зрения структуры, выделения составляющих элементов и их взаиморасположения. Этими признаками могут быть: расстояние между словами, расстояние между буквами, левый и правый отступы. Выбор данной темы обусловлен тем, что данные признаки текста не зависят от языка, семантики или назначения документа.

В следующих пунктах сравниваются 2 метода классификации изображений: а именно, метод опорных векторов (SVM) и Сверточные Нейронные сети (CNN).

SVM (SupportVectorMachine)

Пусть имеется обучающая выборка: https://habrastorage.org/storage/habraeffect/ec/0f/ec0fd2147020136102f199d847315336.png

Метод опорных векторов строит классифицирующую функцию F в виде https://habrastorage.org/storage/habraeffect/9e/39/9e39396ca18b921d9afbef6d92607ddb.png, где https://habrastorage.org/storage/habraeffect/bc/aa/bcaa9f6be3acdb74579d883fa63c21f3.png — скалярное произведение, w — нормальный вектор к разделяющей гиперплоскости, b — вспомогательный параметр. Те объекты, для которых F(x) = 1 попадают в один класс, а объекты с F(x) = -1 — в другой. Выбор именно такой функции неслучаен: любая гиперплоскость может быть задана в виде https://habrastorage.org/storage/habraeffect/bb/77/bb77637fa821ab46507330ed645ceb33.png для некоторых w и b. Далее, мы хотим выбрать такие w и b которые максимизируют расстояние до каждого класса. Можно подсчитать, что данное расстояние равно https://habrastorage.org/storage/habraeffect/31/86/3186bd99eb78eadf2af35359b431c58e.png. Проблема нахождения максимума https://habrastorage.org/storage/habraeffect/31/86/3186bd99eb78eadf2af35359b431c58e.png эквивалентна проблеме нахождения минимума https://habrastorage.org/storage/habraeffect/05/47/0547d2ad77f3163ca1641d382a173ad2.png. Запишем все это в виде задачи оптимизации:

https://habrastorage.org/storage/habraeffect/0e/06/0e0620af2c03143d1e40db91806d375e.png

Данная задача является стандартной задачей квадратичного программирования и решается с помощью множителей Лагранжа.

CNN (Сверточные нейронные сети)

Сверточная нейронная сеть — это специальная архитектура искусственных нейронных сетей, предложенная Яном Лекуном в 1988 году и нацеленная на эффективное распознавание образов, входит в состав технологий глубокого обучения. Идея сверточных нейронных сетей заключается в чередовании сверточных слоёв и слоёв нелинейного уплотнения. Структура сети — однонаправленная, многослойная.

Когда компьютер принимает данные на вход, в данном случае данные — это отсканированные образцы почерков, то он видит массив пикселей. В зависимости от разрешения и размера изображения, например, размер массива может быть 32х32х3, где 3 — это значения каналов RGB. Каждому из этих чисел присваивается значение от 0 до 255, которое описывает интенсивность пикселя в этой точке. В качестве выхода мы требуем вектор, каждое число которого будет принадлежать диапазону от 0 до 1 и обозначать вероятность принадлежности данного объекта к каждому из классов. После этого объект будет относиться к классу с наибольшей вероятностью.

СНС пропускает изображение через серию сверточных слоев, слоев объединения и полносвязных слоёв. Основа CNN — сверточный слой. Он получает на вход матрицу пикселей, которая обрабатывается с помощью фильтров, других матриц меньшего размера. Данная операция называется сверткой. Пример свертки представлен на Рис.1.

https://habrastorage.org/webt/v9/k2/kc/v9k2kc8ng4nrhryunr3wr6l5brg.png

Рис. 1.

Обучение

Для обучения рассмотренных методов использовалась база данных IAM Handwriting Database, которая содержит формы рукописного текста, которые были отсканированы с разрешением в 300 точек на дюйм и сохранены в формате PNG c 256 градациями серого. Данные содержат 1,539 англоязычных рукописных текстов 657 различных авторов.

Оценкой классификации служат выбранная метрика — accuracy метрика. Accuracy является самой простой и понятной метрикой, она показывает отношение правильно классифицируемых объектов ко всем объектам выборки.

Результаты

SVM метод классификации показал точность 73.21 % при выборе лучших параметров путем поиска GridSearch.

CNN показал точность 89,94 %. Параметры размера и количества фильтров подбирались практически. В качестве активационных функций сверточных слоев была использована функция RELU. На выходном слое — SoftMax.

Заключение

Были рассмотрены два метода классификации изображений: SVM и CNN. Сравнивая, показатели точности этих алгоритмов на коллекциях изображений, пришли к выводу, что в среднем, Сверточные Нейронные сети работают лучше.

Литература:

  1. Christopher M. Bishop. Pattern recognition and machine learning, 2006.
  2. К. В. Воронцов. Лекции по методу опорных векторов.
  3. Л. В. Степанов. Моделирование конкуренции в условиях рынка.
Основные термины (генерируются автоматически): CNN, SVM, метод классификации изображений, рукописный текст, IAM, PNG, RELU, RGB, рукописная информация, сеть.


Задать вопрос