Обнаружение объектов на изображении с использованием данных с eye-tracking и методов машинного обучения

Спирин, Илья Андреевич

В последнее время разрабатываются узконаправленные информационные системы обработки и анализа данных. Подобные системы часто решают конкретные технические задачи, используя в качестве основы алгоритмы машинного обучения, такие как алгоритмы кластеризации, метод опорных векторов, классификация объектов и другие. При данном уровне развития математических методов строятся различные модели предсказания поведения данных. Модели могут послужить хорошей основой для разработки полноценного программного продукта или же модификации существующих программно-технических средств. Среди существующих программ и оборудований предлагается рассмотреть актуальную разработку такую, как очки дополнительной реальности. Дополненной реальностью называется результат введения в поле восприятия любых сенсорных данных с целью дополнения сведений об окружении и улучшения восприятия информации [1].

Предлагается решить задачу обнаружения объектов в очках с дополненной реальностью для того, чтобы пользователь имел возможность проводить мониторинг объектов, находящиеся в зоне дополненной реальности. При решении данной задачи объектом послужат детали технических устройств (например, детали двигателя автомобиля). Задача обнаружения объектов включает в себя несколько подзадач, такие как: получение данных для разработки модели обнаружения, выбор методов классификации и кластеризации для обучения модели, построение модели для идентификации объектов, разработка программной составляющей для работы с очками дополненной реальности.

В данной статье предлагается рассмотреть первый этап решения — задачу получения данных для разработки модели детектирования объектов. У исследователей в области когнитивных наук есть давний интерес к вычислительным моделям, которые предсказывают поведение движения глаз человека. Однако в последнее время ряд авторов стали использовать данные, полученные с помощью eye-tracker устройства, для задач технического зрения [2]. Eye-tracker — это устройство регистрации положения и движений глаза. Оборудование отслеживает движение зрачка глаза человека в момент, когда тот рассматривает на экране компьютера различную информацию [3] в виде изображений, видеоряда, веб-приложений. (рис.1). Как показывает практика, с помощью данных движения глаза повышается производительность алгоритмов сегментации [6]. Поэтому для решения нашей задачи необходимо использовать eye-tracker данные для более эффективного анализа изображения.

схема.jpg

Рис. 1. Схема работы устройства eye-tracker

Изображения будут содержать в себе информацию о деталях двигателя автомобиля. Наш набор данных изображений должен быть очень большим (порядка 5000 изображений) для того, чтобы достоверность данных была высока и респонденты при различных условиях определяли заданный объект. Данный эксперимент проводится для того, чтоб создать меченные данные для обучения модели. Метку данных производит респондент при прохождении эксперимента: человеку дается в течение одной секунды посмотреть изображение и принять решение присутствует или отсутствует тот или иной объект на изображении. Наблюдатели выполняют визуальную задачу поиска, которая происходит очень быстро и с большей вероятностью приводит к обнаружению целевого объекта.

Изображения предлагается взять из дополнительных источников, основной компонентой отбора является наличие на изображении деталей двигателя. Собрав достаточное количество изображений, мы сгруппируем их по 10 признакам: свеча, клапан, поршень, поршневые кольца, шатун, коленчатый вал, картер, гайки, винты, шайбы. Выберем изображения таким образом, чтобы на каждом была только одна деталь. Тогда респондент сможет принять решение — отсутствует деталь или присутствует на фото. Между тем устройство eye-tracker будет записывать движение глаз по изображению, формируя дополнительные показатели и данные. Такими данными могут послужить координаты фиксации взгляда, время нахождения объекта, время фиксации на объекте, количество попаданий в объект и другие. Некоторые исследователи проводили подобные задачи и для своего эксперимента брали порядка 6000 изображений [2]. В свою очередь, мы соберем около 5000 изображений, как показывает практика, этого достаточно для задач обнаружения объектов. Число респондентов будет составлять до 10 человек.

Для того чтобы подготовить метки данных о наличии объекта на изображении задача визуального поиска не может быть оптимальной так, как такой поиск облегчает нахождения целевого объекта. Увеличивается вероятность того, что респондент зацикливается на целевом объекте. Тем не менее, традиционные задачи поиска требуют большого количества целевых показателей. Например, если участник эксперимента находит объект, он наживает кнопку «да», если объект отсутствует на изображении, участник нажимает кнопку «нет». Таким образом, в сценарии тестирования прописывается, какой объект является целевым и к такому сценарию прилагаются изображения, которые содержат объект и не содержат. Такая установка будет означать, что данные, полученные с eye-tracker, собираются для большого числа целевых показателей, которые могут быть использованы для обучения модели. Для минимизации угадывания присутствия объекта на изображении предлагается такое подбор данных, чтоб наборы изображений были одинаковы по количеству, и таким образом, чтобы объекты имели подобный фон и размер, поскольку в противном случае задача была бы слишком легкая для наблюдателей.

Для получения данных необходимо устройство eye-tracker. Проведя сравнительный анализ устройств, был выбран оптимальный eye-tracker для проведения тестирования. Таким устройством выбран eye-tracker Tobii Pro T60XL [4], представленный на рисунке 2.

Рис. 2. Устройство eye-tracker Tobii Pro T60XL

Данное устройство оснащено подходящими характеристиками для исследований, и позволяет решать данную задачу с высокой точностью. Эксперимент проводится в специальной лаборатории с ослабленным освещением. Участники усаживаются на расстоянии 60 см от ЖК-экрана eye-tracker устройства. Технические характеристики eye-tracker устройства представлены в таблице 1. Устройство записывает движение глаз со скоростью 1000 Гц, при этом используется нормированное отклонение. Для того чтобы увеличить точность сбора данных, eye-tracker так же записывает информацию о движении головы. Кнопки «да» и «нет» записаны с помощью программного средства Logitech, которые подают сигнал с точностью до миллисекунды.

Таблица 1

Характеристики eye-trackerTobiiPro T60XL

Пристально частоту дискретизации	60 Гц
Точность 1	0.5 °
Точность 2	0,22 °
Свобода движений головы	Ширина х высота: 44 см х 22 см (17.3 х 8,7) @ 70 см Рабочее расстояние: 50–80 см (20- 31)
Задержка	Общая задержка системы: <33 мс
Пристально время восстановления	Моргание<17 мс. После того, как потерял отслеживания <300 мс
Рекомендуемый размер экрана	Интегрированная система, 24 широкоформатный экран монитора

Сбор данных начался со стандартной калибровки девяти точек на экране устройства. Как объяснено выше, участники рассматривают изображения, которые были предварительно разделены на классы в случайном порядке (новая последовательность должна быть сгенерирована для каждого участника). Каждое испытание начинается с просмотра центрального креста фиксации, отображающегося в течение 500 мс, после чего отображается изображение. Задача участника был нажать одну из двух кнопок ответа, чтобы указать класс, к которому принадлежит объект в изображении, после чего автоматически переключалось на следующее изображение. Коррекция дрейфа была выполнена после каждого изображения. Должна выполняться повторная калибровка, если коррекция показывает, что это необходимо (приблизительно через каждые 200 изображений). Респондентам предлагается пятиминутный перерыв каждые 30 минут. Изображения в наборе данных различаются по размеру, и все они меньше, чем разрешение экрана, используемого для эксперимента. Вместо того, чтобы проводить масштабирование изображения, что в свою очередь сделало бы задачу не естественной, изображения представляются в оригинальном размере, но со случайным смещением от центра экрана. В этом моменте есть преимущество, что участники не могут легко разработать стратегию просмотра (например, всегда смотреть в центре экрана, разглядывая объект в верхней половине), тем самым гарантируя, что полученные данные максимально описывают реальное движение глаз.

В общей сложности 10 участников (5 женщин и 5 мужчин) принимают участие в сборе данных. Каждый из респондентов должен дать информативное согласие на бесплатное исследование.

Далее предлагается сделать выбор методов машинного обучения. Как сказано ранее, большое количество данных, собранных с помощью eye-tracker оборудования, будет иметь метку о присутствии и отсутствии объекта. В данном случае задача выбора упрощается и необходимо выбрать алгоритм машинного обучения из методов классификации объектов. Таким образом, повысить шансы предсказывания объектов возможно с помощью алгоритма классификации, который будет давать наиболее высокий результат на новых контрольных данных.

В заключении отметим, что проведение исследования для получения eye-tracker данных является только одной подзадачей в решении сложной проблемы обнаружения объектов на изображении. Однако данных эксперимент позволит нам не только собрать данные, но и будет основой для выбора методов классификации, и в последующем послужит началом для построения модели предсказания объектов

Литература:

Дополненная реальность [Электронный ресурс]. — URL: https://ru.wikipedia.org/wiki
Dim P. Papadopoulos, Alasdair D. F. Clarke, Frank Keller, Vittorio Ferrari Training object class detectors from eye tracking data, 2015 С.16
И. А. Спирин, Н. И. Хорошев — Методы обработки информации при использовании eye-tracking технологии // Сборник материалов XII международной школы-конференции студентов, аспирантов и молодых ученых — 2016, С 172–176
Tobii Pro [Электронный ресурс]. — URL: http://www.tobiipro.com/product-listing/tobii-pro-t60xl
Felzenszwalb, P., Girshick, R., McAllester, D., Ramanan, D.: Object detection with discriminatively trained part based models. IEEE Trans. on PAMI 32(9) (2010)
Walber, T., Scherp, A., Staab, S.: Can you see it? two novel eye-tracking-based measures for assigning tags to image regions. In: MMM (2013)

Обнаружение объектов на изображении с использованием данных с eye-tracking и методов машинного обучения

Библиографическое описание:

Похожие статьи

Поиск объектов на изображении с использованием алгоритма адаптивного усиления

Диагностирование технического состояния объектов, выполняющих преобразования сигналов с использованием искусственных нейронных сетей

Использование сенсорных макетов в работе с детьми раннего возраста

Исследование показателей качества и быстродействия поиска опорных точек на изображениях методом SURF

Использование предварительного масштабирования для повышения качества видеопотока

Применение нейронных сетей в распознавании рукописного текста

Использование нейросетевого аппарата для идентификации границ геологических объектов

Алгоритм распознавания текстовой информации на изображении с помощью ЭВМ

Использование нейронных сетей для повышения надежности хранения данных

Использование интерактивного подхода в обучении информатике с применением презентаций на основе макросов