Анализ эффективности применения методов классификации
Автор: Артиков Музаффар Эгамберганович
Рубрика: Спецвыпуск
Опубликовано в Техника. Технологии. Инженерия №3 (5) июнь 2017 г.
Дата публикации: 14.07.2017
Статья просмотрена: 606 раз
Библиографическое описание:
Артиков, М. Э. Анализ эффективности применения методов классификации / М. Э. Артиков. — Текст : непосредственный // Техника. Технологии. Инженерия. — 2017. — № 3.1 (5.1). — С. 5-6. — URL: https://moluch.ru/th/8/archive/62/2632/ (дата обращения: 16.11.2024).
Классификация – системное распределение изучаемых предметов, явлений, процессов по родам, видам, типам, по каким-либо существенным признакам для удобства их исследования; группировка исходных понятий и расположение их в определенном порядке, отражающем степень этого сходства.
Классификация - это закономерность, позволяющая делать вывод относительно определения характеристик конкретной группы. Таким образом, для проведения классификации должны присутствовать признаки, характеризующие группу, к которой принадлежит то или иное событие или объект (обычно при этом на основании анализа уже классифицированных событий формулируются некие правила).
Классификация относится к стратегии обучения с учителем (supervised learning), которое также именуют контролируемым или управляемым обучением.
Задачей классификации часто называют предсказание категориальной зависимой переменной (т.е. зависимой переменной, являющейся категорией) на основе выборки непрерывных и/или категориальных переменных.
Другой вариант классификации возникает, если зависимая переменная может принимать значения из некоторого множества предопределенных классов. Например, когда необходимо предсказать, какую марку автомобиля захочет купить клиент. В этих случаях рассматривается множество классов для зависимой переменной.
На сегодняшний день имеется большое количество методов для классификации объектов.
Наивный байесовский классификатор может быть, как параметрическим, так и непараметрическим, в зависимости от того, каким методом восстанавливаются одномерные плотности. Основные преимущества наивного байесовского классификатора — простота реализации и низкие вычислительные затраты при обучении и классификации. В тех редких случаях, когда признаки действительно независимы, наивный байесовский классификатор оптимален.
Основной его недостаток — относительно низкое качество классификации в большинстве реальных задач. Чаще всего он используется либо как примитивный эталон для сравнения различных моделей алгоритмов, либо как элементарный строительный блок в алгоритмических композициях [1].
Дерево принятия решений — средство поддержки принятия решений, использующееся в статистике и анализе данных для прогнозных моделей. Среди прочих методов ИАД, метод дерева принятия решений имеет несколько достоинств: прост в понимании и интерпретации, позволяет оценить модель при помощи статистических тестов, является надежным методом.
Недостатки метода:
Проблема получения оптимального дерева решений является NP-полной с точки зрения некоторых аспектов оптимальности даже для простых задач [2,3].
Изучающие метод дерева принятия решений, могут создавать слишком сложные конструкции, которые недостаточно полно представляют данные. Данная проблема называется переобучением [4].
Для данных, которые включают категориальные переменные с большим набором уровней (закрытий), больший информационный вес присваивается тем атрибутам, которые имеют большее количество уровней [5].
K-ближайших соседей – это метрический алгоритм классификации, основанный на оценивании сходства объектов. Классифицируемый объект относится к тому классу, которому принадлежат ближайшие к нему объекты обучающей выборки [6].
Классификацию, проведенную данным алгоритмом, легко интерпретировать путём предъявления пользователю нескольких ближайших объектов. Поиск ближайшего соседа предполагает сравнение классифицируемого объекта со всеми объектами выборки, что требует линейного по длине выборки числа операций [7].
Машина опорных векторов — является одной из наиболее популярных методологий обучения по прецедентам, предложенной В. Н. Вапником и известной в англоязычной литературе под названием SVM (Support Vector Machine). Это наиболее быстрый метод нахождения решающих функций. Метод сводится к решению задачи квадратичного программирования в выпуклой области, которая всегда имеет единственное решение. Не существует общего подхода к автоматическому выбору ядра в случае линейной неразделимости классов.
Random forest (случайный лес) — алгоритм машинного обучения, заключающийся в использовании ансамбля решающих деревьев. Алгоритм сочетает в себе две основные идеи: метод бэггинга Бреймана и метод случайных подпространств. Алгоритм применяется для задач классификации, регрессии и кластеризации.
Высокое качество получаемых моделей, сравнимое с SVM и бустингом, и лучшее, чем у нейронных сетей [8]. Алгоритм склонен к переобучению на некоторых задачах, особенно на зашумленных задачах [9].
Методы |
легкость интерпретации |
простота реализации |
низкие вычислительные затраты |
скорость при вычислении |
надежность и устойчивость к шумам |
легкость при расширении алгоритма |
Наивный Байес |
высокая |
высокая |
Да |
высокая |
Низкая |
низкая |
Дерево принятия решений |
Низкая |
высокая |
Нет |
зависит от объема данных |
Низкая |
низкая |
K-ближайших соседей |
Низкая |
средняя |
Нет |
зависит от объема данных |
Среднее |
высокая |
Машина опорных векторов |
высокая |
низкая |
Да |
высокая |
Высокая |
высокая |
Случайный лес |
Средняя |
средняя |
Нет |
высокая |
Низкая |
низкая |
Таблица 1. Предварительный анализ качеств методов классификации.
Из рассмотренных 5 методов классификации следует выделить 2 из них, результаты которых показали относительно неплохие результаты.
Метод «Дерево принятия решений» показывает самый высокий результат при наименьшим объеме тестовых данных. Из этого следует, что данный метод возможно интегрировать в системы поддержки принятия решений имея уже сформулированную обученную модель с большим объемом данных.
Во втором случае, метод «Машина опорных векторов» показывает довольно средний результат, однако обладает большой устойчивостью к шумам вне зависимости от объемов тестовых данных. Можно утверждать, что данный метод обладает наибольшим потенциалом для внедрения в экспертные системы. Также положительной чертой данного метода является легкость расширения или переработки алгоритмов, что при правильном подходе может повысить качество выходного результата.
Литература:
- https://ru.wikipedia.org/wiki/Задача_классификации
- Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning. — Springer, 2001. ISBN 0-387-95284-5
- Hyafil, Laurent; Rivest, RL (1976). «Constructing Optimal Binary Decision Trees is NP-complete». Information Processing Letters 5 (1): 15-17. DOI:10.1016/0020-0190(76)90095-8.
- Murthy S. (1998). Automatic construction of decision trees from data: A multidisciplinary survey. Data Mining and Knowledge Discovery
- Principles of Data Mining. 2007. DOI:10.1007/978-1-84628-766-4. ISBN 978-1-84628-765-7.
- Deng,H.; Runger, G.; Tuv, E. (2011). «Bias of importance measures for multi-valued attributes and solutions». Proceedings of the 21st International Conference on Artificial Neural Networks (ICANN). pp. 293—300.
- Bishop C. - Pattern Recognition and Machine Learning (Springer, 2006)
- К. В. Воронцов, Лекции по метрическим алгоритмам классификации
- Caruana R., Niculescu-Mizil A., An Empirical Comparison of Supervised Learning Algorithms Using Different Performance Metrics