В статье автор рассматривает возможности использования нейросетей для оценки развернутых ответов ЕГЭ и ОГЭ на основе опыта проекта по внедрению искусственного интеллекта в онлайн-сервис «Облако знаний».
Ключевые слова: искусственный интеллект, оценивание ответов, ЕГЭ, ОГЭ.
Искусственный интеллект (далее — ИИ) всё активнее внедряется в разные сферы жизни. В частности, полным ходом идут работы по внедрению технологий ИИ в образование на этапе массовой проверки развёрнутых ответов обучающихся, в том числе в рамках государственной итоговой аттестации выпускников основной и средней школы — ЕГЭ и ОГЭ. Тем не менее большинство учителей относится к этому скептически, будучи уверенными, что ИИ не способен заменить эксперта-человека.
Можно ли доверять оценке, сделанной ИИ? Ответить на этот вопрос помогут результаты проекта по внедрению искусственного интеллекта в онлайн-сервис «Облако знаний», осуществляемого в 2023/24 гг. при грантовой поддержке Фонда содействия инновациям. Одной из задач проекта является внедрение оптимальной модели искусственного интеллекта в сервис для автоматизации проверки ответов школьников на вопросы ОГЭ и ЕГЭ. Рассмотрим опыт применения ИИ, полученный в ходе проекта, на примере конкретного учебного предмета — географии .
Опыт и решения проекта
Как известно, в ЕГЭ по географии развёрнутого ответа требуют 8 заданий из 29. В рамках проекта было использовано 36 разных вариантов заданий, проанализировано свыше 24 000 ответов. Если на первом этапе проекта статистическая вероятность правильной оценки задания моделью составляла около 60 %, то уже на втором этапе, после дообучения, она достигла 90 %.
Прежде чем доверить модели ИИ проверку ответов школьников, её необходимо обучить. Главная сложность состоит в широком (в сущности, неограниченном) спектре возможных формулировок ответа, с использованием синонимичных выражений, разнообразных языковых конструкций и словоформ. Следовательно, необходимо научить модель распознавать сходный смысл таких выражений. Для этого используется огромный массив данных для дообучения (широкий спектр ответов, сотни тысяч страниц учебного и профессионального текста). Результаты обнадёживают.
Несколько примеров из работы над проектом
В одном из заданий школьникам требуется привести аргументы за и против эксплуатации Армянской АЭС. В качестве одного из аргументов против может быть приведена угроза повреждения АЭС в связи с высокой сейсмичностью территории Армении. Но очевидно, что вместо «высокой сейсмичности» отвечающим могут быть использованы равнозначные по смыслу выражения: «тектоническая активность», «угроза землетрясений», «подземные толчки», «колебания земной коры» и т. п. Если на первом этапе модель ИИ не все подобные ответы воспринимала как верные, то после дообучения правильность оценки ответов по данному критерию сильно возросла.
Примеры ответов школьников:
– В Армении нет своих источников топлива, поэтому строительство атомной электростанции является необходимостью. Но высокая сейсмичность территории Армении может создать аварийную ситуацию и привести к катастрофе.
– Жители Армении озабочены безопасностью АЭС, так как здесь часто бывают подземные толчки, от которых электростанция может разрушиться.
– Я считаю, что запуск атомной электростанции в Армении является рискованным предприятием из-за угрозы землетрясений в регионе.
– Армения же — горная страна, её постоянно трясёт, потому что там тектоническая активность очень высокая. Там нельзя строить АЭС.
Сложнее для модели даётся оценивание критериев, не содержащих специальной терминологии, когда спектр возможных формулировок ответов становится практически безграничным. Так, при оценивании ответов на вопрос, каким образом изменение возрастной структуры населения в пользу лиц старших возрастов приведёт к увеличению нагрузки на государственный бюджет Китая, модель должна воспринимать как синонимы не только понятия «пожилые», «престарелые», «пенсионеры», «лица пенсионного возраста» и т. п., но и «пенсии», «социальные пособия», «социальные льготы», а также их многочисленные конкретные примеры. Как и в предыдущем случае, дообучение модели резко повысило точность оценки ответов.
Примеры ответов школьников:
– С увеличением числа пожилых людей увеличивается количество пенсионеров, которым государство должно выплачивать пенсии.
– Старение населения требует разработки и реализации социальных программ по уходу за пожилыми людьми (например, строительство больниц, домов престарелых), что может быть финансово затратным для государственного бюджета.
– Старики нуждаются в помощи и заботе со стороны государства, в результате значительная часть бюджета будет тратиться на пособия по старости и инвалидности, частичную оплату лекарств, проезда и другие льготы.
– С ростом числа престарелых в Китае возникнут проблемы для экономики. Меньше работающих людей, больше нуждающихся в пенсиях и медицинской помощи. Правительству необходимо найти решения, чтобы обеспечить развитие страны в новых условиях.
Ещё один важный момент связан со взаимозаменяемостью ответов. Например, при оценивании ответов на вопрос «В каком из морей солёность воды выше — в Карском или Аравийском?» после дообучения модель ИИ воспринимает как аналогичные по смыслу ответы «В Аравийском море солёность воды выше, чем в Карском», «В Карском море солёность воды ниже, чем в Аравийском» и даже «Солёность воды в Аравийском море не может не быть выше, чем в Карском». Данная проблема решается пополнением базы ответов, на которых обучается модель ИИ.
Необходимость учёта ошибок
В ряде заданий ЕГЭ по географии в критериях оценивания предлагается дополнительно учитывать наличие фактических или теоретических ошибок в ответе. Бесспорно, это задача крайне сложная для ИИ, так как предусмотреть все возможные конкретные ошибки отвечающих непросто. Однако можно предположить некоторые типичные ошибки при выполнении учащимися данного задания.
К примеру, при ответе на вопрос «Где будет выше солнечная радиация в декабре — на Кубе или на Мадагаскаре?» можно предположить, что часть учащихся вместо того, чтобы исходить из положения Солнца в данное время года над Южным тропиком, попытается связать ответ с удалённостью островов от экватора. Следовательно, заложив в модель «Положение по отношению к экватору» в качестве неверного ответа, мы поможем модели ИИ учитывать в дальнейшем эту ошибку при оценке ответов школьников.
Эксперт или искусственный интеллект?
Конечно, не все проблемы ещё решены. К основным трудностям оценивания развёрнутых текстовых ответов с помощью моделей ИИ можно отнести:
– проблемы с отрицанием (модель не всегда распознаёт противоположный смысл ответа, особенно если отрицание выражено не через частицу «не», а более сложными словесными оборотами);
– возможное игнорирование моделью части ответа в громоздких сложносочинённых и сложноподчинённых предложениях;
– не всегда правильное реагирование модели на добавление ряда «лишних» слов.
Однако не будем забывать, что и оценка ответов человеком не лишена недостатков, не случайно развёрнутые ответы учащихся на ОГЭ и ЕГЭ проверяются не одним, а двумя экспертами, при этом случаи допустимого (на 1 балл) расхождения в их оценке — далеко не редкость.
Модель ИИ как экзаменатор по сравнению с человеком имеет не только недостатки, но и свои преимущества:
– во-первых, она обеспечивает максимальную объективность проверки;
– во-вторых, она выравнивает шансы учеников из разных регионов; эта серьёзная проблема, связанная с разным качеством подготовки членов предметных комиссий (тех же учителей) в разных регионах России, не раз поднималась в обществе;
– в-третьих, ИИ исключает ошибки, связанные с человеческим фактором (усталость, «замыленность» взгляда, вызванного большим объёмом проверяемых работ).
Таким образом, текущие результаты проекта по внедрению искусственного интеллекта в онлайн-сервис «Облако знаний» позволяют сделать однозначный вывод:при чётких критериях корректности ответа и хорошей обученности ИИ способен достаточно корректно оценивать развёрнутые текстовые ответы учеников. Но, конечно, во всех спорных случаях последнее слово должно оставаться за экспертом-человеком.