В статье автор исследует применение больших языковых моделей (LLM) для автоматизации оценки сроков и бюджета IT-проектов.
Ключевые слова: искусственный интеллект, оценка бюджета, модель, первичная оценка параметров проекта, оценка сроков.
Введение
В современном мире информационные технологии играют ключевую роль в цифровой трансформации бизнеса, общества и технологий. Одной из наиболее сложных задач на этапе планирования таких проектов является точная оценка сроков и бюджета. Ошибки в оценке могут привести к перерасходу средств, срыву сроков и, в конечном итоге, к провалу проекта [2, с. 64].
За последние три десятилетия проведено множество исследований, посвященных оценке усилий и стоимости разработки программного обеспечения. Традиционные методы, такие как COCOMO, функциональные точки и экспертные оценки, широко используются [1, с. 2], но часто сталкиваются с ограничениями в точности и применимости. В последние годы методы искусственного интеллекта, включая генеративные модели, стали набирать популярность и применяться в различных сферах жизни и бизнеса. Особенно это касается генеративных моделей искусственного интеллекта, таких как ChatGPT, которые способны обрабатывать сложные запросы и предоставлять обоснованные ответы на основе анализа большого объёма данных.
Данное исследование посвящено изучению применимости генеративных моделей искусственного интеллекта для автоматизированной оценки стоимости и сроков IT-проектов. В рамках работы рассматривается использование таких моделей для первичной оценки параметров проекта, их точность сравнивается с реальными данными. Основная гипотеза исследования заключается в том, что использование генеративных моделей искусственного интеллекта может повысить скорость и качество оценки, снизив необходимость в трудоёмких ручных методах.
Цель исследования — оценить применимость и точность генеративных моделей искусственного интеллекта для задач прогнозирования стоимости и сроков IT-проектов.
Основная часть
В исследовании использовались данные из технического задания (ТЗ) для проекта, реализуемого на языке программирования C++ с использованием фреймворка Qt. Проект включал интеграцию голосового помощника «Маруся» и блок-модуля диспетчеризации «Обь 7.2».
Объектом исследования стали ответы LLM-сервисов (Large Language Model, «большая языковая модель») на запросы, связанные с оценкой сроков и бюджета проекта. Эти оценки были сопоставлены с реальными данными, согласно которым проект был выполнен двумя Junior-разработчиками за три месяца с бюджетом в размере 350 000 рублей и 200,000 рублей на оборудование.
Методология исследования
Для проведения исследования был подготовлен набор запросов, которые были направлены на оценку стоимости, сроков и количества специалистов, необходимых для реализации проекта. Запросы были отправлены через API к следующим LLM-сервисам: DeepSeek , GigaChat , ChatGPT 4o , YandexGPT.
Каждый сервис предоставил свои оценки, которые были затем сопоставлены с реальными данными. Для повышения точности оценок были использованы различные формулировки запросов, включая уточнения о уровне опыта разработчиков (Junior) и размере проекта (небольшой проект).
Обоснование выбора моделей
В рамках данного исследования были выбраны несколько ключевых моделей, представляющих различные рынки и технологии, для проведения всестороннего анализа и сравнения их возможностей в контексте оценки стоимости и сроков реализации проекта.
В частности, ChatGPT 4 является лидирующей моделью на рынке и активно развивается. Также была выбрана китайская модель DeepSeek, которая демонстрирует высокие результаты в лингвистических задачах и является достойным конкурентом для GPT-4 в этой области [3, с. 20].
GigaChat и YandexGPT были выбраны как популярные модели, доступные пользователям онлайн, которые показывают хорошие результаты на русском языке [4].
Анализ ответов
Фактические данные показывают, что проект был выполнен за 3 месяца с бюджетом 350 000 рублей на зарплату разработчиков и 200 000 рублей на оборудование. Таким образом, общий бюджет составил 550 000 рублей.
– DeepSeek: Оценки бюджета варьировались от 279 000 рублей до 12,888,000 рублей, а сроки от 2 до 12 месяцев.
– DeepSeek (DeepThink): Оценки бюджета варьировались от 210 000 рублей до 12,000,000 рублей, а сроки от 1,5 до 9 месяцев.
– ChatGPT 4o: Оценки бюджета варьировались от 350 000 рублей до 4,000,000 рублей, а сроки от 1,5 до 8 месяцев.
– GigaChat и YandexGPT: Не смогли предоставить точных оценок, но предоставили инструкции, которые могут быть полезными при оценке проекта.
После уточнения, что проект небольшой, оценка моделями бюджета и сроков приблизилась к реальным данным.
Заключение
В ходе исследования и тестирования было установлено, что генеративные модели могут предоставить приблизительную структуру затрат на проект. Однако их оценки сроков и стоимости проекта не всегда соответствуют реальным затратам.
Генеративные модели искусственного интеллекта могут быть полезны для первичной оценки параметров проекта, особенно в ситуациях, когда требуется быстрое принятие решения. Однако для получения точных оценок по-прежнему рекомендуется использовать традиционные методы.
Дальнейшие исследования могут быть направлены на улучшение точности генеративных моделей путём обучения на более специализированных данных, а также на разработку шаблонов запросов, которые позволят повысить точность оценки.
Приложение
Таблица 1
Вход — Документ
Сервис |
Оценка бюджета (руб) |
Оценка сроков (месяцы) |
DeepSeek |
3,500,000–5,500,000 |
3–4 |
DeepSeek (DeepThink) |
500,000–600,000 |
4–6 |
ChatGPT 4o |
2,500,000–4,000,000 |
3–4 |
Таблица 2
Вход — Текст
Сервис |
Оценка бюджета (руб) |
Оценка сроков (месяцы) |
DeepSeek |
2,700,000−4,500,000 |
3–4 |
DeepSeek (DeepThink) |
400,000–900,000 |
4–6 |
ChatGPT 4o |
1,500,000–2,500,000 |
4–8 |
Таблица 3
Вход — Документ. Уточнение Junior
Сервис |
Оценка бюджета (руб) |
Оценка сроков (месяцы) |
DeepSeek |
1,000,000–1,500,000 |
8–12 |
DeepSeek (DeepThink) |
540,000 |
9 |
ChatGPT 4o |
930,000–1,260,000 |
3 |
Таблица 4
Вход — Текст. Уточнение Junior
Сервис |
Оценка бюджета (руб) |
Оценка сроков (месяцы) |
DeepSeek |
11,512,000–12,888,000 |
5–7 |
DeepSeek (DeepThink) |
8,000,000–12,000,000 |
4–6 |
ChatGPT 4o |
1,790,000–1,940,000 |
4.5–5 |
Таблица 5
Вход — Текст. Уточнение — Junior. Уточнение — Это небольшой проект
Сервис |
Оценка бюджета (руб) |
Оценка сроков (месяцы) |
DeepSeek |
279,000 |
2 |
DeepSeek (DeepThink) |
210,000 |
1,5 |
ChatGPT 4o |
350 000–450 000 |
1,5–2 |
Литература:
- Sakib S. M. N. Software Effort Estimation for Improved Decision Making. — 2022.
- Arslan F. et al. A review of machine learning models for software cost estimation //Review of Computer Engineering Research. — 2019. — Т. 6. — №.2. — С. 64–75.
- DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model / Liu Aixin. — Текст: электронный // arxiv: [сайт]. — URL: https://arxiv.org/pdf/2405.04434 (дата обращения: 16.12.2024).
- Группа «Т-Технологии» представила лучшие в мире открытые большие языковые модели на русском языке. — Текст: электронный // tbank: [сайт]. — URL: https://www.tbank.ru/about/news/11122024-the-t-technologies-group-has-introduced-the-worlds-most-efficient-open-large-language-models-in-russian/ (дата обращения: 16.12.2024).