В статье автор исследует возможность обучения большой языковой модели на школьном компьютере.
Ключевые слова: большие данные, искусственный интеллект, обучение, большая языковая модель, машинное обучение.
Развитие систем искусственного интеллекта невозможно без машинного обучения. Интерес к машинному обучению обусловлен: растущими объёмами и разнообразием данных, вычислительной обработкой, которая является более дешёвой и мощной; доступными хранилищами для хранения данных — все эти аспекты означают, что можно быстро и автоматизировано приводить модели, которые могут анализировать более объёмные и сложные данные и обеспечивать более точные результаты — даже на очень больших объёмах. А благодаря созданию точных моделей у организации больше шансов определить выгодные возможности или избежать неизвестных рисков. [6] Разработчик Матузов Александр провёл в мае 2024 года сравнение сервисов Искусственного Интеллекта и опубликовал на Хабр. По его мнению, на то время самым всесторонне обученным являлся ChatGPT-4о — чат-бот с генеративным искусственным интеллектом, разработанный компанией OpenAI. Его задачи: отвечать на вопросы, создавать тексты и писать коды на разных языках программирования.
Такова была ситуация, когда мы окунулись в мир ИИ и больших данных. Нашими данными были тексты на русском языке, а значит, нам оптимально нужна была мульти лингвистическая или русскоязычная модель LLM. При планировании своей проектной деятельности мы установили, что действовать нам придётся в условиях ограничений:
— финансовых (у нас нет бюджета для оплаты услуг онлайн сервисов ИИ и покупки токенов);
— технических (в наличии у нас есть школьный компьютер, который не особо мощный);
— для реализации проекта по дообучению языковой модели было принято решение определить возможность использования уже существующей модели LLM и дообучить её на своих данных.
На сентябрь 2024 года существовало уже множество моделей LLM. Такие как: YaGPT-3 от Яндекса, GPT-4o от Open AI, Gemeni от Google, LLAMA от Meta и Microsoft, GigaChat от Сбера, DeepSeek, от китайского фонда High-Flyer Capital Management и многие другие менее известные. [5]
Выбрав эти самые продвигаемые модели, мы рассмотрели наши возможности по дообучению, установив для моделей ряд критериев:
— стоимость доступа к существующей модели (стоимость дообучения);
— формат входных данных для дообучения;
— возможность дообучения на собственном компьютере или в сети;
— возможность доступа к модели физических лиц;
— возможность доступа к модели российского пользователя.
Данные были сведены в таблицу и проанализированы.
Результатом анализа стал выбор LLAMA от Meta и Microsoft, как наиболее доступной для использования в дообучении. Большинство моделей не предоставляли возможности дообучения, а предоставляли услуги для использования. Также сами модели для дообучения не предоставлялись в онлайн формате. Чтобы дообучить модель её надо установить на компьютер с определёнными характеристиками.
Но время не стоит на месте. Если ещё в ноябре 2024 года мы решали на какой компьютер нам установить языковые модели GPT-3, LLAMA и будет ли они работать адекватно с нашей кириллицей, то в декабре уже появилась в открытом доступе языковая модель от Т-банка для локальной установки и мы решили использовать её, так как по описанию, её можно было установить даже на ноутбук. [1]
Т-Банк открыл доступ всем желающим к своей русскоязычной большой языковой модели (LLM) T-Lite, у которой 7–8 млрд параметров. Объём варианта установки f16–16.2 Гб.
Для дообучения ИИ нам пришлось окунуться в мир программирования на языке Python. Мы изучили различные материалы: «Как дообучить языковую модель писать в стиле Достоевского» [2].
Первоначально мы скачали предобученную LLM от Т-банка (T-lite-0.1.Q4_K_S.gguf). И провели тестовый запуск по определённому ТЗ (время обращения 14.01.2025).
Для начала мы запустили скаченную версию и предложили ей написать текст согласно нашим требованиям, но он не подошёл, что указывало на востребованность в дообучении.
С помощью менеджера окружения мы создали окружение (jntorch) в нее были установлены пакеты Jupiter notebook, torch, transformers туда же мы устанавливали уникальные для каждой модели библиотеки. Мы нашли git проект для дообучения LLM.
Далее мы собрали текстовый файл txt с нашими текстами для дообучения и преобразовали его в датасет.
Мы начали дообучение русскоязычной модели LLM от Т-банка (T-lite-0.1.Q4_K_S.gguf), то есть пошли коротким путём и решили дообучить её. Но при запуске скрипта (который нам сформировала чат GPT) библиотека transformers не смогла распознать приемлемый формат данных этой модели и предложила использовать другие модели.
Мы решили познакомиться со скриптами дообучения англоязычных моделей (https://huggingface.co/docs/transformers/training). Следуя инструкции нам удалось дообучить англоязычную модель из примера.
Далее мы стали искать мультиязычную модель с поддержкой русского языка для дообучения. А уже к концу января (неделю спустя) мы выбрали поступившую в открытый доступ DeepSeek-R1 (https://huggingface.co/lightblue/DeepSeek-R1-Distill-Qwen-1.5B-Multilingual). В виду того, что каждая модель отличается по количеству параметров, то и техническое оборудование требуется разное.
Так как мы взялись дообучать LLM на школьном компьютере (стационарном и не включённом в школьную сеть), то на последней фазе дообучения машина заявила, что ей чего-то не хватает, либо процессор не справлялся с нашими задачами, и мы приостановили действия по дообучению и решили сменить компьютер.
Следующие действия мы проводили на другом компьютере. В процессе обучения изменение весов потребовало взаимодействия с американскими сервером WanDB, который для нашего региона (РФ) не предоставляет своих услуг. Далее мы изучили информацию о возможности существования аналогов данного сервиса для нашего региона.
Сложности с вариантами сервисов привели нас к мысли вернуться к открытым локальным моделям, и мы стали искать методы обучения, которые не связаны с использованием иностранных сервисов. Мы протестировали Sber, Saiga, Qwen. Sber не прошёл на этапе загрузки датасета (нужен определённый формат), Saiga 3 не удалось загрузить токенизатор (который шёл в комплекте).
Qwen (китайская мультиязычная модель) заработала, но просила много времени (почти 8 часов), при этом, хочется отметить, что мы выбрали для дообучения модель с всего 0,5 миллиардов параметров (модель от Т-банка имела 8 миллиардов параметров) и мы обучили его на прилагаемом датасете.
В заключение хочется добавить, что быстрота обучения модели LLM, конечно, зависит от мощностей процессора компьютера и объёма данных модели. А наш путь в изучении бесплатных возможностей для школьника заниматься дообучением больших языковых моделей показал, как быстро меняется мир в сфере Искусственного интеллекта. За всеми изменениями следует еженедельно обязательно следить, если планируешь развиваться профессионально в данной области и создавать интересные проекты по анализу больших данных. Надеемся, что наш опыт поможет и другим школьникам в поисках модели для дообучения.
Литература:
- ИИ T-Lite от Т-Банка. Запуск LLM на ноутбуке https://dzen.ru/a/Zs4CthUBWiR1IUcj
- Как дообучить языковую модель писать в стиле Достоевского https://sysblok.ru/courses/kak-doobuchit-jazykovuju-model-pisat-v-stile-dostoevskogo/
- Как дообучить LLM с помощью Supervised Fine-Tuning https://habr.com/ru/articles/830396/
- Малышев И. О. Обзор современных генеративных нейросетей: отечественная и зарубежная практика \\ International Journal of Humanities and Natural Sciences, vol. 1–2 (88), 2024, с. 168–171.
- Машинное обучение: что это такое и почему это важно? https://wiki.merionet.ru/articles/mashinnoe-obuchenie-chto-eto-takoe-i-pochemu-eto-vazhnoh
- Сравнение сервисов Искусственного Интеллекта https://habr.com/ru/articles/830254/