Разработка программного модуля для оценки уникальности законов Госдумы РФ при помощи метода ЛСА | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 23 ноября, печатный экземпляр отправим 27 ноября.

Опубликовать статью в журнале

Авторы: ,

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №21 (363) май 2021 г.

Дата публикации: 21.05.2021

Статья просмотрена: 32 раза

Библиографическое описание:

Рулева, В. О. Разработка программного модуля для оценки уникальности законов Госдумы РФ при помощи метода ЛСА / В. О. Рулева, Е. В. Шиловская. — Текст : непосредственный // Молодой ученый. — 2021. — № 21 (363). — С. 114-116. — URL: https://moluch.ru/archive/363/81386/ (дата обращения: 15.11.2024).



В статье обосновывается актуальность разработки программного модуля, обеспечивающего проверку законов, находящихся в ведомстве Госдумы РФ, на плагиат. Также описывается метод латентно-семантического анализа, на основе которого разрабатывается алгоритм работы программного модуля.

Ключевые слова: программный модуль, латентно-семантический анализ, терм, корпус, матрица, TF-IDF, сравнение.

В Российской Федерации (далее РФ) основным законом является Конституция [1], которая представляет собой акт наивысшей юридической силы. Ни один правовой акт на территории РФ не может противоречить её Конституции. Следующими по важности являются федеральные конституционные законы, которые развивают положения Конституции. Они обладают высшей юридической силой по сравнению с другими законами. Далее идут федеральные законы, регламентирующие основополагающие стороны общественных отношений и государственной жизни. Именно они составляют основную массу законодательства. К объектам законотворчества Государственной Думы РФ (далее Госдума, ГД) и относятся проекты федеральных конституционных законов, федеральных законов и проекты постановлений [3].

На данным момент Госдумой РФ принято более 30000 законов и около 2200 постановлений. Анализируя статистику законодательного процесса с рис.1 за последние 13 лет, можно увидеть, что за это время было внесено и рассмотрено около 16000 законопроектов [2]. Путем нехитрых вычислений получаем, что в месяц приходится рассматривать около 100 законопроектов, причём каждый из них необходимо сравнивать со всеми уже принятыми законами и постановлениями.

Статистика законодательного процесса

Рис. 1. Статистика законодательного процесса

Актуальность проблемы выявления заимствований в текстах законов обусловлена тем, что большинство систем и веб-сервисов для определения процента заимствований в текстах не предназначены для проверки на уникальность именно законов. Сравнение законов происходит со всеми доступными документами, зачастую не относящимися к законодательной деятельности. Также закон воспринимается как набор токенов (слов, предложений, абзацев и т. п.), без учёта структурных особенностей закона. Поэтому возникает необходимость разработки программного модуля, предназначенного для обработки только законов Госдумы РФ.

Для выявления смысловых зависимостей между законами был выбран метод латентно-семантического анализа (далее ЛСА), поскольку он является одним из лучших решений для проблемы выявления латентных зависимостей внутри множества документов [4]. Также этот метод позволяет снять полисемию и омонимию слов. Впоследствии он может быть применен как с обучением, так и без.

Любой закон назовём документом, а коллекцию документов будем называть корпусом. Документ разбивается на текстовые единицы (термы) — это могут быть символы, слова, словосочетания, предложения и т. д. Мы будем разбивать закон на слова.

Основной идеей ЛСА является отображение всех документов и встречающихся в них термах в «семантическое пространство», иначе называемое матрицей термы-на-документы. По этой матрице и производятся все дальнейшие вычисления. Подобное отображение позволяет сравнить два терма или документа между собой, а также сравнить терм и документ друг с другом.

Но перед тем, как приступить к самому алгоритму, требуется подготовить для него данные. В нашем случае поскольку структура написания закона одна, то требуется выделить в законе именно те части, которые несут информацию, необходимую для сравнения с другими законами. Поэтому возьмем только те разделы, которые обозначены следующими заголовками:

  1. «Постановление».
  2. «Федеральный закон».
  3. «Пояснительная записка».

Выделенные части также необходимо избавить от так называемого «шума», к которому относятся нерелевантные символы (знаки препинания и цифры), стоп-слова (предлоги, частицы, союзы и т. д.) и нерелевантные слова (применимо к обработке законов ими являются такие термы, как «Конституция Российской Федерации», «вносится на рассмотрение», «о внесении изменения в статью» и т. д.). Далее все слова сводятся к словарной форме при помощи алгоритма лемматизации. На выходе имеем текст закона, очищенный от «шума» и готовый для сравнения с другими законами.

Чтобы использовать модель мешка слов, сначала необходимо определить словарь всех уникальных термов корпуса. Этот словарь ограничит размерность будущей матрицы по одной оси. А число строк матрицы определяется количеством документов в корпусе. В таблице 1 можно увидеть, что на пересечении устанавливается значение «1», если соответствующий терм присутствует в документе, иначе «0». Такая матрица соответствует матрице инцидентности, строки которой соответствуют документам, а элементы строк — наличию соответствующих терминов в этих документах.

Таблица 1

Пример матрицы термы-на-документы

отменить

реализация

механизм

противодействие

Закон 1

1

1

0

0

Закон 2

1

0

1

1

Теперь надо учесть, что тот или иной терм может встретиться в одном документе несколько раз. Как правило, элементы матрицы заменяются на весы, позволяющие учесть частоту появления каждого терма в каждом документе и появление терма во всех документах. Такая статистическая мера называется TF-IDF.

Отдельно рассчитывается мера TF: где 𝑛 𝑡 − количество вхождений слова t в документ d, – общее число слов в текущем документе d.

И мера IDF:

где − количество документов D в корпусе, − количество документов D, в которых встречается терм t, когда

Итоговая мера TF-IDF является произведением двух сомножителей TF и IDF: .

Далее можно с помощью метрик вычислить сходство двух законов. Существует несколько видов расстояний: редакционное, манхэттенское, Левенштейна и т. д. Но с векторной моделью представления информации лучше использовать косинусное расстояние, когда мера сходства двух документов оценивается через косинус между двумя числовыми векторами, представляющими эти документы. Косинусное расстояние между двумя документами 𝐷 1 и 𝐷 2 : где и − соответствующие вектора документов 𝐷 1 и 𝐷 2 .

Таким образом, метод ЛСА позволяет представить множество законов в удобном виде для анализа, а сопоставление значений, вычисленных по метрике косинусного расстояния между разными законами, даёт возможность определить степень их смыслового сходства. Программный модуль позволит производить анализ заимствований, путем сравнения законов, что позволит улучшить существующую законодательную систему.

Литература:

  1. Конституция Российской Федерации: [принята всенародным голосованием 12 декабря 1993 г. с изменениями, одобренными в ходе общероссийского голосования 01 июля 2020 г.] — Текст: электронный // Официальный интернет–портал правовой информации: [сайт]. — URL: http://www.pravo.gov.ru (дата обращения: 09.03.2021).
  2. Государственная Дума. — Текст: электронный // Государственная Дума: [сайт]. — URL: https://www.gosduma.net (дата обращения: 20.05.2021).
  3. Система обеспечения законодательной деятельности. — Текст: электронный // Система обеспечения законодательной деятельности: [сайт]. — URL: https://sozd.duma.gov.ru (дата обращения: 20.05.2021).
  4. An Introduction to Latent Semantic Analysis / Thomas K Landauer, Peter W. Foltz, Darrell Laham. — Discourse processes, 1960. — Текст: непосредственный.
Основные термины (генерируются автоматически): TF-IDF, документ, программный модуль, IDF, латентно-семантический анализ, терм, законодательный процесс, матрица, Российская Федерация, РФ.


Похожие статьи

Разработка программного модуля для определения зон роста биологического объекта с применением машинного обучения

Одним из основных аспектов автоматизации научных исследований является использование специализированных программ и алгоритмов для сбора, обработки и анализа данных. Разрабатываемый модуль предназначен для разметки и подсчёта зон контраста среза биоло...

Аналитическое сравнение рекуррентных моделей в задаче прогнозирования динамики ценных бумаг

В данной статье рассматриваются подходы машинного обучения в задаче анализа и прогнозирования рынка ценных бумаг. В работе сравниваются такие аспекты, как количество занимаемой памяти, число параметров, а также величина затраченного на обучение модел...

Программная модель формирования текстуры ткани

В статье описана программная модель формирования текстуры ткани с возможными дефектами для дальнейшего тестирования систем автоматического обнаружения дефектов ткани и их сертификации. Модель позволяет вводить ряд следующих параметров: максимальная ш...

Сравнение моделей качества программного обеспечения

В данной статье приводится пример разработки плана развития использования облачных технологий на предприятии на основе разработанной модели с использованием методов оптимизации — многокритериального линейного программирования, а также метода ограниче...

Математическая модель анализа эксплуатационной надежности технических средств системы управления движения судов

В статье предложена математическая модель анализа эксплуатационной надеж-ности технических средств системы управления движением судов с помощью полумар-ковских процессов, которая позволяет учитывать их структуру, оценить влияние усло-вий эксплуатации...

Существующие модели оценки остаточного ресурса конструкций и их сравнительный анализ

В статье рассмотрено понятие оценки остаточного ресурса, а также связанные с ним возможности и риски. Произведен сравнительный анализ двух моделей оценки. При сравнении было выявлено, что обе модели имеют множество своих положительных сторон, но они ...

Разработка модуля прогнозирования цен на товары для онлайн-платформы

В данной статье описывается разработка модуля машинного обучения для прогнозирования цен на товары на онлайн-платформе. Модуль использует алгоритмы машинного обучения, такие как случайные леса и деревья решений, для точного прогнозирования цен в зави...

Разработка диспетчера параллельного исполнения задач для формирования изображения в авиатренажёре

Разработан программный модуль диспетчера, распределяющего задачи, связанные с формированием изображения при помощи технологии OpenGL, по нескольким потокам выполнения. Разработанный диспетчер использует новый алгоритм распределения задач по потокам, ...

Требования к разработке специализированных меток для функционирования маркерных приложений с AR-технологией на базе платформы Vuforia

Данная статья посвящена теме разработки и корректуры маркеров для AR-приложений. В настоящей работе отображается процесс взаимодействия с алгоритмом анализа маркеров Vuforia, демонстрируется перечень требований к разработке, а также реализация коррек...

Профилактика конфликтного поведения у подростков

Данная статья исследования состоит в предположении о том, что проведение тренинговых занятий способствует снижению уровня склонности подростков к конфликтному поведению и выбору ими оптимальных стратегий поведения в конфликтных ситуациях. Методами ис...

Похожие статьи

Разработка программного модуля для определения зон роста биологического объекта с применением машинного обучения

Одним из основных аспектов автоматизации научных исследований является использование специализированных программ и алгоритмов для сбора, обработки и анализа данных. Разрабатываемый модуль предназначен для разметки и подсчёта зон контраста среза биоло...

Аналитическое сравнение рекуррентных моделей в задаче прогнозирования динамики ценных бумаг

В данной статье рассматриваются подходы машинного обучения в задаче анализа и прогнозирования рынка ценных бумаг. В работе сравниваются такие аспекты, как количество занимаемой памяти, число параметров, а также величина затраченного на обучение модел...

Программная модель формирования текстуры ткани

В статье описана программная модель формирования текстуры ткани с возможными дефектами для дальнейшего тестирования систем автоматического обнаружения дефектов ткани и их сертификации. Модель позволяет вводить ряд следующих параметров: максимальная ш...

Сравнение моделей качества программного обеспечения

В данной статье приводится пример разработки плана развития использования облачных технологий на предприятии на основе разработанной модели с использованием методов оптимизации — многокритериального линейного программирования, а также метода ограниче...

Математическая модель анализа эксплуатационной надежности технических средств системы управления движения судов

В статье предложена математическая модель анализа эксплуатационной надеж-ности технических средств системы управления движением судов с помощью полумар-ковских процессов, которая позволяет учитывать их структуру, оценить влияние усло-вий эксплуатации...

Существующие модели оценки остаточного ресурса конструкций и их сравнительный анализ

В статье рассмотрено понятие оценки остаточного ресурса, а также связанные с ним возможности и риски. Произведен сравнительный анализ двух моделей оценки. При сравнении было выявлено, что обе модели имеют множество своих положительных сторон, но они ...

Разработка модуля прогнозирования цен на товары для онлайн-платформы

В данной статье описывается разработка модуля машинного обучения для прогнозирования цен на товары на онлайн-платформе. Модуль использует алгоритмы машинного обучения, такие как случайные леса и деревья решений, для точного прогнозирования цен в зави...

Разработка диспетчера параллельного исполнения задач для формирования изображения в авиатренажёре

Разработан программный модуль диспетчера, распределяющего задачи, связанные с формированием изображения при помощи технологии OpenGL, по нескольким потокам выполнения. Разработанный диспетчер использует новый алгоритм распределения задач по потокам, ...

Требования к разработке специализированных меток для функционирования маркерных приложений с AR-технологией на базе платформы Vuforia

Данная статья посвящена теме разработки и корректуры маркеров для AR-приложений. В настоящей работе отображается процесс взаимодействия с алгоритмом анализа маркеров Vuforia, демонстрируется перечень требований к разработке, а также реализация коррек...

Профилактика конфликтного поведения у подростков

Данная статья исследования состоит в предположении о том, что проведение тренинговых занятий способствует снижению уровня склонности подростков к конфликтному поведению и выбору ими оптимальных стратегий поведения в конфликтных ситуациях. Методами ис...

Задать вопрос