Ключевые слова: программный модуль, плагиат изображений, анализ оригинальности изображений, обратный поиск изображений.
Предметная область выявления плагиата в данный момент очень актуальна. Наиважнейшее значение выявления плагиата заключается в его способности сохранять целостность научных и творческих работ. При использовании чужой работы без указания авторства или разрешения подрывается принцип интеллектуальной честности. Эти действия могут повлечь за собой юридическую и моральную ответственность, а также нанести вред репутации или авторитету.
Формат PDF (Portable Document Format) был разработан компанией Adobe Systems в 1993 году с целью предоставления универсального формата для обмена документами, сохраняющих свою структуру и внешний вид на различных платформах и операционных системах. С тех пор PDF стал стандартом для представления и распространения документов в электронном виде [1].
Плагиат иллюстраций — этот тип плагиата подразумевает под собой заимствование изображений. Если изображений в анализируемой работе немного, то выявить этот тип плагиата можно, используя специальные поисковые системы, при наличии оригиналов изображений в сети Интернет. Если же изображений в проверяемом документе большое количество, то такой процесс будет занимать много времени, увеличивая трудоемкость задачи.
Большинство антиплагиатных систем работают с текстами. Но если в документе есть заимствованные рисунки или фотографии, то выявить их происхождение подобными программными продуктами не получится. Напрашивается вариант попробовать отдельно к каждому изображению применить поиск графических данных по образцу с помощью таких сервисов, как TinEye, Google Images, Yandex.Images, Bing Images. Если проверок небольшое количество, то применение такого варианта возможно. Но если анализировать требуется большое количество изображений, то подход к решению задачи необходимо менять. Например, есть возможность автоматизировать процесс извлечения графических файлов из документа и направить их на анализ стороннему сервису. Под сторонним подразумевается сервис, который принимает на вход изображение и возвращают пользователю набор ссылок на предположительное веб-страницы, на которых это изображение расположено.
Технология обратного поиска изображений дает возможность пользователям выполнять поиск изображений на основании их визуальных свойств, содержания или метаданных, отказываясь от классического текстового поиска. Обратный поиск весьма полезен для проверки подлинности изображений в научных статьях или журналистской работе [2].
Сервисы обратного поиска обычно используют алгоритмы компьютерного зрения для анализа изображений и поиска сходства. Среди известных сервисов обратного поиска изображений можно отметить Google Images, TinEye, Bing Images, Yandex.Images и другие.
Извлечение из документа и последующий анализ изображений — трудоемкий процесс, который может быть автоматизирован. Автоматизацию данного процесса позволит осуществить программный модуль для анализа оригинальности изображений документа формата PDF.
Сервисы TinEye, Яндекс.Картинки, Google images и Bing images производят поиск только по одному изображению, предложенный программный модуль производит поиск по изображениям, которые находятся в документе формата PDF.
Сервисы TinEye, Яндекс.Картинки, Google images и Bing images принимают на вход готовое изображение, предложенный программный модуль автоматически извлекает изображения из документа формата PDF.
Сервисы TinEye, Яндекс.Картинки, Google images и Bing images производят поиск только по одному изображению, предложенный программный модуль производит поиск по всем изображениям, которые находятся в документе формата PDF, отображая единый результат поиска в пользовательском интерфейсе.
Сервисы TinEye, Яндекс.Картинки, Google images и Bing images к каждому найденному изображению предлагают одну ссылку на электронный ресурс, на котором она была найдена, предложенный программный модуль производит анализ всех ссылок на электронные ресурсы, на которых были найдены изображения, и отображает их в отсортированном виде в пользовательском интерфейсе.
Схема данных для программного модуля представлена на рис. 1.
Рис. 1. Схема данных программного модуля
Схема алгоритма работы программного модуля представлен на рис. 2.
Рис. 2. Алгоритм работы программного модуля
В целом, описанный программный модуль предоставляет автоматизированный и эффективный подход к выявлению плагиата в документах формата PDF, особенно в отношении использования изображений. Он помогает поддерживать интеллектуальную честность, предотвращает нарушения авторских прав, юридическую и моральную ответственность, а также негативное влияние на репутацию и авторитет. Предложенный модуль автоматизирует процесс извлечения изображений из PDF-документа, осуществляет их поиск в выбранных сервисах и предоставляет объединенные результаты и анализ ссылок на электронные ресурсы. Это позволяет пользователям эффективно проверять оригинальность изображений и сохранять целостность научных и творческих работ.
Литература:
- Portable_Document_Format. — Текст: электронный // Википедия свободна\энциклопедия: [сайт]. — URL: https://ru.wikipedia.org/wiki/Portable_Document_Format (дата обращения: 30.04.2023).
- Обратный поиск изображений с помощью ИИ. — Текст: электронный // Crypto News: [сайт]. — URL: https://cryptonews.net/ru/editorial/tekhnologii/obratnyy-poisk-izobrazheniy-s-pomoshchyu-ii/?ysclid=li9jpdcjqv846266106 (дата обращения: 30.04.2023).