Проблема анализа оригинальности изображений документа формата PDF | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 1 февраля, печатный экземпляр отправим 5 февраля.

Опубликовать статью в журнале

Автор:

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №22 (469) июнь 2023 г.

Дата публикации: 30.05.2023

Статья просмотрена: 50 раз

Библиографическое описание:

Бурый, А. С. Проблема анализа оригинальности изображений документа формата PDF / А. С. Бурый. — Текст : непосредственный // Молодой ученый. — 2023. — № 22 (469). — С. 8-10. — URL: https://moluch.ru/archive/469/103462/ (дата обращения: 18.01.2025).



Ключевые слова: программный модуль, плагиат изображений, анализ оригинальности изображений, обратный поиск изображений.

Предметная область выявления плагиата в данный момент очень актуальна. Наиважнейшее значение выявления плагиата заключается в его способности сохранять целостность научных и творческих работ. При использовании чужой работы без указания авторства или разрешения подрывается принцип интеллектуальной честности. Эти действия могут повлечь за собой юридическую и моральную ответственность, а также нанести вред репутации или авторитету.

Формат PDF (Portable Document Format) был разработан компанией Adobe Systems в 1993 году с целью предоставления универсального формата для обмена документами, сохраняющих свою структуру и внешний вид на различных платформах и операционных системах. С тех пор PDF стал стандартом для представления и распространения документов в электронном виде [1].

Плагиат иллюстраций — этот тип плагиата подразумевает под собой заимствование изображений. Если изображений в анализируемой работе немного, то выявить этот тип плагиата можно, используя специальные поисковые системы, при наличии оригиналов изображений в сети Интернет. Если же изображений в проверяемом документе большое количество, то такой процесс будет занимать много времени, увеличивая трудоемкость задачи.

Большинство антиплагиатных систем работают с текстами. Но если в документе есть заимствованные рисунки или фотографии, то выявить их происхождение подобными программными продуктами не получится. Напрашивается вариант попробовать отдельно к каждому изображению применить поиск графических данных по образцу с помощью таких сервисов, как TinEye, Google Images, Yandex.Images, Bing Images. Если проверок небольшое количество, то применение такого варианта возможно. Но если анализировать требуется большое количество изображений, то подход к решению задачи необходимо менять. Например, есть возможность автоматизировать процесс извлечения графических файлов из документа и направить их на анализ стороннему сервису. Под сторонним подразумевается сервис, который принимает на вход изображение и возвращают пользователю набор ссылок на предположительное веб-страницы, на которых это изображение расположено.

Технология обратного поиска изображений дает возможность пользователям выполнять поиск изображений на основании их визуальных свойств, содержания или метаданных, отказываясь от классического текстового поиска. Обратный поиск весьма полезен для проверки подлинности изображений в научных статьях или журналистской работе [2].

Сервисы обратного поиска обычно используют алгоритмы компьютерного зрения для анализа изображений и поиска сходства. Среди известных сервисов обратного поиска изображений можно отметить Google Images, TinEye, Bing Images, Yandex.Images и другие.

Извлечение из документа и последующий анализ изображений — трудоемкий процесс, который может быть автоматизирован. Автоматизацию данного процесса позволит осуществить программный модуль для анализа оригинальности изображений документа формата PDF.

Сервисы TinEye, Яндекс.Картинки, Google images и Bing images производят поиск только по одному изображению, предложенный программный модуль производит поиск по изображениям, которые находятся в документе формата PDF.

Сервисы TinEye, Яндекс.Картинки, Google images и Bing images принимают на вход готовое изображение, предложенный программный модуль автоматически извлекает изображения из документа формата PDF.

Сервисы TinEye, Яндекс.Картинки, Google images и Bing images производят поиск только по одному изображению, предложенный программный модуль производит поиск по всем изображениям, которые находятся в документе формата PDF, отображая единый результат поиска в пользовательском интерфейсе.

Сервисы TinEye, Яндекс.Картинки, Google images и Bing images к каждому найденному изображению предлагают одну ссылку на электронный ресурс, на котором она была найдена, предложенный программный модуль производит анализ всех ссылок на электронные ресурсы, на которых были найдены изображения, и отображает их в отсортированном виде в пользовательском интерфейсе.

Схема данных для программного модуля представлена на рис. 1.

Схема данных программного модуля

Рис. 1. Схема данных программного модуля

Схема алгоритма работы программного модуля представлен на рис. 2.

Алгоритм работы программного модуля

Рис. 2. Алгоритм работы программного модуля

В целом, описанный программный модуль предоставляет автоматизированный и эффективный подход к выявлению плагиата в документах формата PDF, особенно в отношении использования изображений. Он помогает поддерживать интеллектуальную честность, предотвращает нарушения авторских прав, юридическую и моральную ответственность, а также негативное влияние на репутацию и авторитет. Предложенный модуль автоматизирует процесс извлечения изображений из PDF-документа, осуществляет их поиск в выбранных сервисах и предоставляет объединенные результаты и анализ ссылок на электронные ресурсы. Это позволяет пользователям эффективно проверять оригинальность изображений и сохранять целостность научных и творческих работ.

Литература:

  1. Portable_Document_Format. — Текст: электронный // Википедия свободна\энциклопедия: [сайт]. — URL: https://ru.wikipedia.org/wiki/Portable_Document_Format (дата обращения: 30.04.2023).
  2. Обратный поиск изображений с помощью ИИ. — Текст: электронный // Crypto News: [сайт]. — URL: https://cryptonews.net/ru/editorial/tekhnologii/obratnyy-poisk-izobrazheniy-s-pomoshchyu-ii/?ysclid=li9jpdcjqv846266106 (дата обращения: 30.04.2023).
Основные термины (генерируются автоматически): PDF, программный модуль, документ формата, изображение, предложенный программный модуль, обратный поиск изображений, сервис, интеллектуальная честность, моральная ответственность, обратный поиск.


Ключевые слова

программный модуль, плагиат изображений, анализ оригинальности изображений, обратный поиск изображений

Похожие статьи

Программа генерации авторегрессионных случайных полей

В настоящей статье описан разработанный для генерации изображений программный модуль. Данный модуль позволяет формировать различные случайные поля яркости и может быть использован для получения различных по своим статистическим свойствам изображений.

Разработка программного модуля защиты информации методом стеганографии

В данной статье рассматривается процесс разработки программного модуля для шифрования текстовой информации в реальном изображении, с помощью языка программирования Rust, описываются основные аспекты стеганографии, в частности метод LSB.

PlantUML: создание диаграмм с использованием текстового синтаксиса

В статье автор рассматривает PlantUML как эффективный инструмент для создания диаграмм в разработке программного обеспечения, преимущества использования текстового синтаксиса, разнообразие поддерживаемых диаграмм.

Анализ технологий разработки веб-интерфейсов

Статья посвящена анализу технологий разработки веб-интерфейсов. Рассматриваются функции программ, анализируются их недостатки и достоинства, приводится сравнительная характеристика.

Разработка программы для оптического распознавания символов с помощью Tesseract

В данной статье наглядно и подробно рассмотрен пример работы с библиотекой Tesseract ORC, создана программа для распознавания текста с фото.

Фактографический поиск в гетерогенных базах данных

Разработка алгоритма валидации форм на клиентской стороне для передачи данных

В данной статье рассмотрены методы и алгоритмы функционирования систем клиент-серверной архитектуры для передачи данных с помощью технологий программных инструментов: HTML, CSS, Javascript.

Реализация архитектурного шаблона MVC с использованием шаблона проектирования «Наблюдатель» на языке PHP

В статье рассматриваются особенности реализации и пример использования архитектурного шаблона MVC и шаблона «наблюдатель» для разработки веб-приложений на языке PHP.

Разработка и внедрение библиотеки валидации на клиентском языке JavaScript

Библиотеки проверки подлинности играют решающую роль в разработке веб-приложений, особенно в обеспечении целостности и безопасности данных. Цель этой статьи — помочь разработчикам в процессе создания пользовательской библиотеки проверки подлинности д...

Разработка комплексной нейросетевой модели по оценке уровня дизайна веб-страниц

Проведен систематический анализ применения нейросетевых алгоритмов при оценке дизайна веб-страниц. Показана возможность определения параметров функциональности и эстетической ценности элементов веб-дизайна при использовании нейросетевых алгоритмов тр...

Похожие статьи

Программа генерации авторегрессионных случайных полей

В настоящей статье описан разработанный для генерации изображений программный модуль. Данный модуль позволяет формировать различные случайные поля яркости и может быть использован для получения различных по своим статистическим свойствам изображений.

Разработка программного модуля защиты информации методом стеганографии

В данной статье рассматривается процесс разработки программного модуля для шифрования текстовой информации в реальном изображении, с помощью языка программирования Rust, описываются основные аспекты стеганографии, в частности метод LSB.

PlantUML: создание диаграмм с использованием текстового синтаксиса

В статье автор рассматривает PlantUML как эффективный инструмент для создания диаграмм в разработке программного обеспечения, преимущества использования текстового синтаксиса, разнообразие поддерживаемых диаграмм.

Анализ технологий разработки веб-интерфейсов

Статья посвящена анализу технологий разработки веб-интерфейсов. Рассматриваются функции программ, анализируются их недостатки и достоинства, приводится сравнительная характеристика.

Разработка программы для оптического распознавания символов с помощью Tesseract

В данной статье наглядно и подробно рассмотрен пример работы с библиотекой Tesseract ORC, создана программа для распознавания текста с фото.

Фактографический поиск в гетерогенных базах данных

Разработка алгоритма валидации форм на клиентской стороне для передачи данных

В данной статье рассмотрены методы и алгоритмы функционирования систем клиент-серверной архитектуры для передачи данных с помощью технологий программных инструментов: HTML, CSS, Javascript.

Реализация архитектурного шаблона MVC с использованием шаблона проектирования «Наблюдатель» на языке PHP

В статье рассматриваются особенности реализации и пример использования архитектурного шаблона MVC и шаблона «наблюдатель» для разработки веб-приложений на языке PHP.

Разработка и внедрение библиотеки валидации на клиентском языке JavaScript

Библиотеки проверки подлинности играют решающую роль в разработке веб-приложений, особенно в обеспечении целостности и безопасности данных. Цель этой статьи — помочь разработчикам в процессе создания пользовательской библиотеки проверки подлинности д...

Разработка комплексной нейросетевой модели по оценке уровня дизайна веб-страниц

Проведен систематический анализ применения нейросетевых алгоритмов при оценке дизайна веб-страниц. Показана возможность определения параметров функциональности и эстетической ценности элементов веб-дизайна при использовании нейросетевых алгоритмов тр...

Задать вопрос