Дообучение модели LLM написанию коротких текстов

Научные руководители: Юришан Георгий Миркович, Моисеев Иван Олегович

Рубрика: Информатика

Опубликовано в Юный учёный №5 (90) май 2025 г.

Дата публикации: 20.04.2025 2025-04-20

Статья просмотрена: 1 раз

Библиографическое описание:

Данилов, И. А. Дообучение модели LLM написанию коротких текстов / И. А. Данилов, Г. М. Юришан, И. О. Моисеев. — Текст : непосредственный // Юный ученый. — 2025. — № 5 (90). — URL: https://moluch.ru/young/archive/90/4951/ (дата обращения: 25.04.2025).

Препринт статьи

В статье автор исследует возможность обучения большой языковой модели на школьном компьютере.

Ключевые слова: большие данные, искусственный интеллект, обучение, большая языковая модель, машинное обучение.

Развитие систем искусственного интеллекта невозможно без машинного обучения. Интерес к машинному обучению обусловлен: растущими объёмами и разнообразием данных, вычислительной обработкой, которая является более дешёвой и мощной; доступными хранилищами для хранения данных — все эти аспекты означают, что можно быстро и автоматизировано приводить модели, которые могут анализировать более объёмные и сложные данные и обеспечивать более точные результаты — даже на очень больших объёмах. А благодаря созданию точных моделей у организации больше шансов определить выгодные возможности или избежать неизвестных рисков. [6] Разработчик Матузов Александр провёл в мае 2024 года сравнение сервисов Искусственного Интеллекта и опубликовал на Хабр. По его мнению, на то время самым всесторонне обученным являлся ChatGPT-4о — чат-бот с генеративным искусственным интеллектом, разработанный компанией OpenAI. Его задачи: отвечать на вопросы, создавать тексты и писать коды на разных языках программирования.

Такова была ситуация, когда мы окунулись в мир ИИ и больших данных. Нашими данными были тексты на русском языке, а значит, нам оптимально нужна была мульти лингвистическая или русскоязычная модель LLM. При планировании своей проектной деятельности мы установили, что действовать нам придётся в условиях ограничений:

— финансовых (у нас нет бюджета для оплаты услуг онлайн сервисов ИИ и покупки токенов);

— технических (в наличии у нас есть школьный компьютер, который не особо мощный);

— для реализации проекта по дообучению языковой модели было принято решение определить возможность использования уже существующей модели LLM и дообучить её на своих данных.

На сентябрь 2024 года существовало уже множество моделей LLM. Такие как: YaGPT-3 от Яндекса, GPT-4o от Open AI, Gemeni от Google, LLAMA от Meta и Microsoft, GigaChat от Сбера, DeepSeek, от китайского фонда High-Flyer Capital Management и многие другие менее известные. [5]

Выбрав эти самые продвигаемые модели, мы рассмотрели наши возможности по дообучению, установив для моделей ряд критериев:

— стоимость доступа к существующей модели (стоимость дообучения);

— формат входных данных для дообучения;

— возможность дообучения на собственном компьютере или в сети;

— возможность доступа к модели физических лиц;

— возможность доступа к модели российского пользователя.

Данные были сведены в таблицу и проанализированы.

Результатом анализа стал выбор LLAMA от Meta и Microsoft, как наиболее доступной для использования в дообучении. Большинство моделей не предоставляли возможности дообучения, а предоставляли услуги для использования. Также сами модели для дообучения не предоставлялись в онлайн формате. Чтобы дообучить модель её надо установить на компьютер с определёнными характеристиками.

Но время не стоит на месте. Если ещё в ноябре 2024 года мы решали на какой компьютер нам установить языковые модели GPT-3, LLAMA и будет ли они работать адекватно с нашей кириллицей, то в декабре уже появилась в открытом доступе языковая модель от Т-банка для локальной установки и мы решили использовать её, так как по описанию, её можно было установить даже на ноутбук. [1]

Т-Банк открыл доступ всем желающим к своей русскоязычной большой языковой модели (LLM) T-Lite, у которой 7–8 млрд параметров. Объём варианта установки f16–16.2 Гб.

Для дообучения ИИ нам пришлось окунуться в мир программирования на языке Python. Мы изучили различные материалы: «Как дообучить языковую модель писать в стиле Достоевского» [2].

Первоначально мы скачали предобученную LLM от Т-банка (T-lite-0.1.Q4_K_S.gguf). И провели тестовый запуск по определённому ТЗ (время обращения 14.01.2025).

Для начала мы запустили скаченную версию и предложили ей написать текст согласно нашим требованиям, но он не подошёл, что указывало на востребованность в дообучении.

С помощью менеджера окружения мы создали окружение (jntorch) в нее были установлены пакеты Jupiter notebook, torch, transformers туда же мы устанавливали уникальные для каждой модели библиотеки. Мы нашли git проект для дообучения LLM.

Далее мы собрали текстовый файл txt с нашими текстами для дообучения и преобразовали его в датасет.

Мы начали дообучение русскоязычной модели LLM от Т-банка (T-lite-0.1.Q4_K_S.gguf), то есть пошли коротким путём и решили дообучить её. Но при запуске скрипта (который нам сформировала чат GPT) библиотека transformers не смогла распознать приемлемый формат данных этой модели и предложила использовать другие модели.

Мы решили познакомиться со скриптами дообучения англоязычных моделей (https://huggingface.co/docs/transformers/training). Следуя инструкции нам удалось дообучить англоязычную модель из примера.

Далее мы стали искать мультиязычную модель с поддержкой русского языка для дообучения. А уже к концу января (неделю спустя) мы выбрали поступившую в открытый доступ DeepSeek-R1 (https://huggingface.co/lightblue/DeepSeek-R1-Distill-Qwen-1.5B-Multilingual). В виду того, что каждая модель отличается по количеству параметров, то и техническое оборудование требуется разное.

Так как мы взялись дообучать LLM на школьном компьютере (стационарном и не включённом в школьную сеть), то на последней фазе дообучения машина заявила, что ей чего-то не хватает, либо процессор не справлялся с нашими задачами, и мы приостановили действия по дообучению и решили сменить компьютер.

Следующие действия мы проводили на другом компьютере. В процессе обучения изменение весов потребовало взаимодействия с американскими сервером WanDB, который для нашего региона (РФ) не предоставляет своих услуг. Далее мы изучили информацию о возможности существования аналогов данного сервиса для нашего региона.

Сложности с вариантами сервисов привели нас к мысли вернуться к открытым локальным моделям, и мы стали искать методы обучения, которые не связаны с использованием иностранных сервисов. Мы протестировали Sber, Saiga, Qwen. Sber не прошёл на этапе загрузки датасета (нужен определённый формат), Saiga 3 не удалось загрузить токенизатор (который шёл в комплекте).

Qwen (китайская мультиязычная модель) заработала, но просила много времени (почти 8 часов), при этом, хочется отметить, что мы выбрали для дообучения модель с всего 0,5 миллиардов параметров (модель от Т-банка имела 8 миллиардов параметров) и мы обучили его на прилагаемом датасете.

В заключение хочется добавить, что быстрота обучения модели LLM, конечно, зависит от мощностей процессора компьютера и объёма данных модели. А наш путь в изучении бесплатных возможностей для школьника заниматься дообучением больших языковых моделей показал, как быстро меняется мир в сфере Искусственного интеллекта. За всеми изменениями следует еженедельно обязательно следить, если планируешь развиваться профессионально в данной области и создавать интересные проекты по анализу больших данных. Надеемся, что наш опыт поможет и другим школьникам в поисках модели для дообучения.

Литература:

ИИ T-Lite от Т-Банка. Запуск LLM на ноутбуке https://dzen.ru/a/Zs4CthUBWiR1IUcj
Как дообучить языковую модель писать в стиле Достоевского https://sysblok.ru/courses/kak-doobuchit-jazykovuju-model-pisat-v-stile-dostoevskogo/
Как дообучить LLM с помощью Supervised Fine-Tuning https://habr.com/ru/articles/830396/
Малышев И. О. Обзор современных генеративных нейросетей: отечественная и зарубежная практика \\ International Journal of Humanities and Natural Sciences, vol. 1–2 (88), 2024, с. 168–171.
Машинное обучение: что это такое и почему это важно? https://wiki.merionet.ru/articles/mashinnoe-obuchenie-chto-eto-takoe-i-pochemu-eto-vazhnoh
Сравнение сервисов Искусственного Интеллекта https://habr.com/ru/articles/830254/

большие данные, искусственный интеллект, обучение, большая языковая модель, машинное обучение

Научный журнал “Молодой ученый” в социальных сетях:

Дообучение модели LLM написанию коротких текстов

Библиографическое описание:

Ответим на ваш вопрос!