Семантика в задачах автоматической обработки данных | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 30 ноября, печатный экземпляр отправим 4 декабря.

Опубликовать статью в журнале

Автор:

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №8 (88) апрель-2 2015 г.

Дата публикации: 19.04.2015

Статья просмотрена: 417 раз

Библиографическое описание:

Буралхиева, У. С. Семантика в задачах автоматической обработки данных / У. С. Буралхиева. — Текст : непосредственный // Молодой ученый. — 2015. — № 8 (88). — С. 130-132. — URL: https://moluch.ru/archive/88/17491/ (дата обращения: 16.11.2024).

В данной статье рассматриваются методы повышения качества и эффективности решения поисково-аналитических за счёт разработки и применения метода оценки сходства текстов, учитывающего лексико-морфологическую, синтаксическую и семантическую информацию, и создания структур данных и алгоритмов информационного поиска, реализующих этот метод.

Ключевые слова: семантика, естественный язык, обработка текстов

 

Значительная часть информационных ресурсов современного общества, обращающихся в компьютерных средах, представлена естественно-языковыми текстами (ЕЯ-текстами). С когнитивной точки зрения естественный язык (ЕЯ) [4] представляет знаковую систему, отражающую жизненный опыт человека и его взаимодействия с окружением в форме, приспособленной для передачи другим людям и для организации собственного оптимального поведения. С формальной точки зрения естественный язык представляет знаковую систему, содержащую алфавит, совокупность лингвистических единиц-слов, совокупность словарей интерпретирующих эти слова, совокупность правил употребления и интерпретации этих слов. Различие в том, что все слова в естественном языке переносят смысл и имеют информационный объем. В языке информатики есть информационные единицы — носители информации. Ввиду стремительного роста объемов такой информации все большую актуальность приобретают вопросы автоматической обработки текстов (АОТ), затрагивающие обширный спектр практических приложений, представленных задачами извлечения знаний из текстов (Text Mining), задачами автоматической классификации и кластеризации текстовых документов, автоматического индексирования и реферирования, задачами семантического поиска и множеством других задач. Информационной основой всех перечисленных задач являются задачи выявления тематически значимой (актуальной) информации, содержащейся в анализируемом тексте, и ее идентификации посредством соотнесения с тем или иным общепринятым понятием данной предметной области. Совокупность таких понятий можно рассматривать как некоторую понятийную спецификацию предметной области, наиболее универсальным представлением которой может служить некоторая онтология предметной области (ОПО). Таким образом, указанные выше задачи АОТ в той или иной мере сводятся к задаче определения тематически значимых слов и словосочетаний из ЕЯ-текстов и приведения их к одному из понятий ОПО. Это, в свою очередь, предполагает использование некоторой компьютерной технологии семантического анализа текстов.

Проблемы моделирования языковой деятельности человека и примыкающие к ним задачи семантического анализа естественно-языковых текстов с давних пор находятся в фокусе приоритетных исследований по искусственному интеллекту и компьютерной лингвистике. В числе наиболее известных и основополагающих исследований в данной проблематике следует назвать работы Т. Винограда, Р. Шенка, Ч. Филлмора, Н. Хомского. Одной из наиболее известных реализаций АОТ инструментария является семейство программных продуктов TextAnalyst, формальной основой которого является аппарат искусственных нейронных сетей [2].

Проведем сравнение естественного языка и языка информатики. При этом примем во внимание то, что основой языка информатики являются информационные конструкции, семантические информационные единицы и структурные информационные единицы. С когнитивной точки зрения естественный язык (ЕЯ) [4] представляет знаковую систему, отражающую жизненный опыт человека и его взаимодействия с окружением в форме, приспособленной для передачи другим людям и для организации собственного оптимального поведения. С формальной точки зрения естественный язык представляет знаковую систему, содержащую алфавит, совокупность лингвистических единиц-слов, совокупность словарей интерпретирующих эти слова, совокупность правил употребления и интерпретации этих слов. Различие в том, что все слова в естественном языке переносят смысл и имеют информационный объем. В языке информатики есть информационные единицы — носители информации. Их также называют структурные информационные единицы. И есть информационные единицы, содержащие смысл, которые называют семантические информационные единицы. Как элементы сложной системы — языка, эти информационные элементы характеризуются неделимостью, связанной с критерием делимости. Структурная неделимость приводит к элементу — символ, который специального смысла не имеет. В некоторых случаях структурная неделимость в ЯИ приводит к слову. Смысловая неделимость определяет семантические информационные единицы [6] (СИЕ). Смысловая сигнификативная неделимость определяет семантическую информационную единицу слово Смысловая предикативная неделимость определяет семантическую информационную единицу предложение. Смысловая ассоциативная неделимость определяет семантическую информационную единицу фразу. Между перечисленными информационными единицами существуют отношения иерарахии. Слово есть совокупность символов. Интерпретация слова осуществляется с помощью словарей и тезаурусов. Предложение — совокупность слов, выражающих законченную мысль. Интерпретация предложения осуществляется на основе соотнесения его смысла с действительностью. Фраза совокупность предложений, выражающих законченную мысль, некоторые их которых не могут быть интерпретированы без других предложений в этой фразе. Для человека ЕЯ выполняет две главные функции: служит средством коммуникации и средством моделирования явлений окружающего мира. Язык информатики (ЯИ) имеет следующие функции: служит средством формализации описаний окружающего мира на основе информационных моделей [7], средством формального построения информационных моделей, средством моделирования явлений окружающего мира, средством коммуникации, средством запоминания информационных моделей и опыта, средством анализа, средством репрезентации информационных моделей. Можно сказать, что язык информатики является более грубым как средство описания. Однако в условиях больших информационных объемов и информационных барьеров, он позволяет решать задачи, которые человек не в состоянии решить с помощью ЕЯ. То есть доминирующей функцией в ЯИ является анализ, в первую очередь, больших информационных массивов. Моделирования явлений окружающего мира в ЕЯ осуществляется путем запоминания всего множества ситуаций, в которых оказывался человек, и организацией механизмов оперативного извлечения этой информации. ЕЯ позволяет хранить информацию в формализованном виде с помощью лексических единиц слов, что уменьшает искажения интерпретации смысла. Для реализации семантического анализа с использованием РСМ на практике используется словарь предикатных слов [9] и система автоматически формируемых правил [9]. В основе теории коммуникативной грамматики и основанной на ней РСМ лежит понятие синтаксемы – минимальной синтаксической единицы. Синтаксемам приписываются семантические значения, а сами синтаксемы связываются с другими синтаксемами семантическими отношениями [5].

Сфера прикладных решений в проблематике АОТ в настоящее время представлена достаточно обширным спектром инструментальных средств. Однако следует иметь в виду, что любая из современных реализаций инструментарии АОТ представляют собой, в большей или меньшей степени, некоторое частичное решение, и полное, универсальное решение — дело будущих разработок подобных средств, развитие которых в нескольких направлениях стимулирует творческий поиск. Основой большинства существующих практических решений являются статистические подходы. Поэтому развитие аналитического направления в исследовании языковой деятельности, базирующееся на попытках теоретического осмысления системы естественного языка с применением тех или иных математических моделей и методов, является особенно актуальным. Одной из интересных и перспективных реализаций технологии АОТ в рамках аналитического направления является компьютерная семантика В. А. Тузова.

Результаты семантического анализа, основанного на положениях компьютерной семантики В. А. Тузова, предоставляют обширный и удобный материал (“семантический полуфабрикат»), который может быть успешно использован в составлении правил ЭС, осуществляющей извлечение тематически-актуальных смыслов (знаний) из ЕЯ-текстов. Более того, этот материал является важнейшим условием, при котором возможна эффективная реализация подобной ЭС. Применение для этих целей ЭС, правила которой основаны на результатах семантического анализа, является более универсальным решением задачи извлечения тематически-актуальных смыслов из ЕЯ-текстов. В отличие от решений подобных задач, основанных на использовании множества жестко заданных семантических шаблонов, данный подход является более гибким и позволяет обеспечить более высокую смысловую точность. При этом точность семантической идентификации в любой момент может быть повышена посредством расширения базы правил экспертной системы.

 

Литература:

 

1.      Информационная семантика — Викизнание http://www.wikiznanie.ru/ru-wz/index.php.

2.      Shannon C. E. A Mathematical Theory of Communication, Bell System Technical Journal, vol. 27, 379–423 & 623–656, July & October, 1948.

3.      Winner N. Cybernetics or Control and Communication in the Animal and the Mashine. The Technology Press and John Wiley & Soris Inc. New York — Herman et Cie, Paris, 1948. — 194 р.

4.      Заболеева-Зотова А. В. Естественный язык в автоматизированных системах. Семантический анализ текстов. — Волгоград: РПК «Политехник», 2002.

5.      Майер-Шенбергер В., Кукьер К. Большие данные: Революция, которая изменит то, как мы живем, работаем и мыслим. — Манн, Иванов и Фербер, 2014. — 240 c.

6.      Сигов А. С., Кошкин Д. Е., Дробнов С. Е. Кластеризация текста на основе анализа слов с применением распределенных вычислений // Информатизация образования и науки». — 2011. — № 2(10). — С. 74–80.

7.      Казенников А. О. Разработка моделей и алгоритмов для комплекса автоматической обработки и анализа потоков новостных сообщений на основе методов компьютерной лингвистики / Диссертации на соискание степени кандидата технических наук. Специальность 05.13.15. Вычислительные машины, комплексы и компьютерные сети. — М.: МИРЭА, 2014–138 с.

8.      Апресян Ю. Д. Избранные труды. Т. 1. — М.: Языки русской культуры, 1995. — 472 с.

9.      Электронный ресурс http://www.analyst.ru/.

10.  Тузов В. А. Компьютерная семантика русского языка. — СПб.: Изд-во С.-Петерб. ун-та, 2004. — 400 с.

11.  Частиков А. П., Гаврилова Т. А., Белов Д. Л. Разработка экспертных систем. Среда CLIPS. — СПб.: БХБ-Петербург, 2003. — 608 с.

Основные термины (генерируются автоматически): естественный язык, язык информатики, знаковая система, окружающий мир, семантический анализ, слово, единица, задача, предметная область, семантическая информационная единица.


Ключевые слова

семантика, естественный язык, обработка текстов

Похожие статьи

Анализ существующих моделей управления семантическими данными

Статья посвящена анализу существующих моделей управления семантическими данными. В статье рассмотрены: теоретико-методологические основы моделей управления семантическими данными; выделены и проанализированы концепции основных моделей управления сема...

Метрики семантических данных

Данная статья повествует о семантической метрике извлечения перечня понятий из текстов на соответствующую тематику. Онтологический анализ представляет основу для данной метрики. Для обнаружения семантической метрики применяется два показателя — показ...

Создание и практическое использование статистики морфем казахского языка

При обработке казахского языка на ЭВМ возникают множество дополнительных задач, среди которых для казахского языка как для представителя агглютинативного языка актуальна проблема с морфологией. В статье рассматривается статистический метод создания с...

Механизмы управления вычислениями для блокчейн-платформ

На сегодняшний день информация о механизмах управления, используемых в блокчейн-платформах в широком доступе, носит отрывочный характер. Данная тематика более подробно освещена в англоязычном сегменте сети Интернет, в то время как русскоязычным читат...

Семантические трансформации географических терминов в английском и туркменском языках: анализ и перевод

В данной статье проводится анализ семантических трансформаций географических терминов в английском и туркменском языках с целью выявления особенностей перевода таких терминов. Исследование проведено на основе анализа литературных и лингвистических ис...

Разработка процедур для формирования алгоритмических структур в инфологических моделях предметных задач

Основная цель данной работы состоит в снижении трудозатрат при разработке прикладных автоматизированных систем (ПАС) путем создания и внедрения программных инструментов, поддерживающих инфологическое моделирование предметных задач в рамках методологи...

Анализ СУБД и перспективных языков программирования для реализации системы определения параметров сборного режущего инструмента на основании графовых моделей

В статье рассматриваются средства реализации программного обеспечения для определения параметров режущего инструмента. Приводятся критерии анализа соответствующих СУБД. Обосновывается выбор СУБД и языка программирования.

Системный подход при разработке систем отображения информации радиолокационной станции

В статье рассмотрены вопросы построения системы отображения информации и доведения актуальной информации до оператора на примере СОИ РЛС для принятия решения в условиях современной информатизации и увеличения объёма отображаемой информации. Определяю...

Анализ эффективности алгоритмов сортировки и вcтроенных реализаций на примере языка программирования Java

В данной статье показана значительная роль проведения анализа работы алгоритмов сортировки на массивах данных различной размерности. Рассмотрены актуальные алгоритмы и стандартные реализации сортировки в языке программирования Java.

Предпереводческий анализ как один из этапов перевода

Статья посвящена рассмотрению значения предпереводческого анализа и его особенностей, с целью включения его в процесс перевода для обеспечения углубленного понимания исходного текста и улучшения качества результата перевода.

Похожие статьи

Анализ существующих моделей управления семантическими данными

Статья посвящена анализу существующих моделей управления семантическими данными. В статье рассмотрены: теоретико-методологические основы моделей управления семантическими данными; выделены и проанализированы концепции основных моделей управления сема...

Метрики семантических данных

Данная статья повествует о семантической метрике извлечения перечня понятий из текстов на соответствующую тематику. Онтологический анализ представляет основу для данной метрики. Для обнаружения семантической метрики применяется два показателя — показ...

Создание и практическое использование статистики морфем казахского языка

При обработке казахского языка на ЭВМ возникают множество дополнительных задач, среди которых для казахского языка как для представителя агглютинативного языка актуальна проблема с морфологией. В статье рассматривается статистический метод создания с...

Механизмы управления вычислениями для блокчейн-платформ

На сегодняшний день информация о механизмах управления, используемых в блокчейн-платформах в широком доступе, носит отрывочный характер. Данная тематика более подробно освещена в англоязычном сегменте сети Интернет, в то время как русскоязычным читат...

Семантические трансформации географических терминов в английском и туркменском языках: анализ и перевод

В данной статье проводится анализ семантических трансформаций географических терминов в английском и туркменском языках с целью выявления особенностей перевода таких терминов. Исследование проведено на основе анализа литературных и лингвистических ис...

Разработка процедур для формирования алгоритмических структур в инфологических моделях предметных задач

Основная цель данной работы состоит в снижении трудозатрат при разработке прикладных автоматизированных систем (ПАС) путем создания и внедрения программных инструментов, поддерживающих инфологическое моделирование предметных задач в рамках методологи...

Анализ СУБД и перспективных языков программирования для реализации системы определения параметров сборного режущего инструмента на основании графовых моделей

В статье рассматриваются средства реализации программного обеспечения для определения параметров режущего инструмента. Приводятся критерии анализа соответствующих СУБД. Обосновывается выбор СУБД и языка программирования.

Системный подход при разработке систем отображения информации радиолокационной станции

В статье рассмотрены вопросы построения системы отображения информации и доведения актуальной информации до оператора на примере СОИ РЛС для принятия решения в условиях современной информатизации и увеличения объёма отображаемой информации. Определяю...

Анализ эффективности алгоритмов сортировки и вcтроенных реализаций на примере языка программирования Java

В данной статье показана значительная роль проведения анализа работы алгоритмов сортировки на массивах данных различной размерности. Рассмотрены актуальные алгоритмы и стандартные реализации сортировки в языке программирования Java.

Предпереводческий анализ как один из этапов перевода

Статья посвящена рассмотрению значения предпереводческого анализа и его особенностей, с целью включения его в процесс перевода для обеспечения углубленного понимания исходного текста и улучшения качества результата перевода.

Задать вопрос