В статье исследуются ключевые недостатки и проблемы генеративных текстов, анализируется роль журналиста в доработке и адаптации генеративного контента к профессиональным стандартам журналистики.
Ключевые слова: журналистика, генеративный текст, нейросеть, фактчекинг.
Генеративные нейросети стремительно изменяют ландшафт современной журналистики, с одной стороны — предлагая новые инструменты для работы с контентом и облегчения рутинных задач, которые отнимают много времени. С другой — требуют разработки специализированных методов выявления, верификации и доработки генеративных текстов для повышения их качества и достоверности, соответствия профессиональным стандартам журналистской профессии. Ярким примером использования генеративных текстовых моделей в производстве текстового контента в СМИ может служить специальный выпуск газеты «РБК» от 28 апреля 2023 года [2]. В нем часть текстовых и все визуальные материалы были сгенерированы с использованием нейросетей GigaChat (для генерации текста) и Kandinsky 2.1 (для генерации изображений). Особый интерес в контексте исследования представляют именно генеративные тексты. Этот случай заслуживает особого внимания, поскольку является одним из редких примеров, когда российское СМИ открыто заявляет об использовании нейросетей в производстве контента и публикует такой контент без видимых правок.
Анализ генеративных текстов выпуска выявил следующие характерные особенности и проблемы:
- Структурные и языковые:
— шаблонность текста с излишней формализацией, частые механические перечисления;
— клиширование («некоторые утверждают», «согласно мнению ученых» и так далее);
— упрощение синтактических конструкций, преобладание простых предложений;
— разреженность фактов и ценной информации — текст кажется содержательным, но в нем много общих фраз без конкретики.
- Искажение фактов и смещение смысловых акцентов:
— неточности в фактах, галлюцинации, вымышленные данные, ошибки в датах;
— гиперболизация, преувеличение значимости отдельных фактов, изменение масштабов явлений, искажающие исходный смысл;
— смещение контекста, например, переход с анализа локального рынка на глобальный;
— игнорирование ключевой информации, пропуск важных данных, статистики.
- Аналитические ошибки и неточности:
— замена глубокого анализа обобщениями, потеря аналитической ценности оригинального материала;
— тяготение к доминирующим нарративам обучающего сета в ущерб специфике конкретного материала;
— потеря смысловых акцентов оригинального текста, потеря его уникальности;
— подмена экспертного мнения универсальными суждениями без подкрепления информации источниками.
Наиболее показательные проблемы включают:
— дисбаланс между оригинальным и генеративным контентом — сгенерированный контент тематически связан с оригиналом, но игнорирует его специфический контекст;
— универсализация уникального журналистского текста в типовой и обезличенный;
— «дописывание» и «додумывание» контента — генерация информации, отсутствующей в исходном материале, на основе обобщенных паттернов обучающих данных;
— избирательное воспроизведение фактов — одни факты, например, даты и статистика, воспроизведены верно, а другие — упущены или искажены.
Некоторые из обозначенных проблем генеративного текста подтверждаются и Соколовой М. Е.: «хотя нейросети и способны вполне качественно и профессионально создавать или дописывать новости, авторские тексты, следуя авторскому замыслу и верно излагая и описывая фактологию, — получившиеся в результате тексты лишены авторской точки зрения, экспрессивности, эмоционально окрашенной лексики. Публикация таких текстов оправдана в условиях нехватки времени и человеческих ресурсов в редакционно-издательском процессе. В некоторых же текстах были искажены факты, привнесен домысел» [4].
Наибольшее опасение вызывает тот факт, что даже продвинутые модели не гарантируют достоверности. В таких условиях обязательный фактчекинг любой генеративной информации становится абсолютно необходимым. Для верификации применяются как классические, так и новые методы. Традиционный фактчекинг включает поиск первоисточника или подтверждение информации несколькими независимыми источниками, изучение противоположных точек зрения, умение журналиста распознавать фейки (как подделки, так и опечатки или технические ошибки) [1]. Полезными в работе будут специализированные ресурсы, например, Factcheck.org, Politifact.com, FactCheckEU.org.
Процесс фактчекинга также может быть частично автоматизирован с помощью нейросетей [5, 6], но даже при их использовании окончательное решение должно всегда оставаться за человеком. Сейчас нейросети способны анализировать неструктурированный контент, выявлять недостоверную информацию по лингвистическим признакам — особенностям использования местоимений, союзов, эмоционально окрашенной лексики. Другой подход основан на преобразовании текста в структурированную форму для сравнения с проверенными базами знаний. Для коротких текстов эффективен анализ контекста — нейросети оценивают метаданные, включая шаблоны распространения информации, время публикации, профиль автора, уровень вовлеченности аудитории. Некоторые системы достигают высокой точности, фокусируясь на грамматических и структурных характеристиках текста. Все перечисленные методы имеют схожие ограничения: нейросети могут терять информацию при обработке, они ограничены определенным объемом ввода, не всегда учитывают контекст и многозначность слов.
После фактчекинга генеративный текст требует корректировки в отношении содержательных искажений и проверки соответствия контексту темы. Нейросети склонны заменять специфические нюансы глобальными обобщениями, поэтому также важно:
— дополнить общие формулировки конкретными примерами;
— выявить и восполнить информационные пробелы;
— скорректировать смысловые акценты в соответствии с журналистским замыслом.
Стилистическая и структурная переработка текста также требует особого внимания, так как машинные тексты часто страдают от однообразия и шаблонности: журналисту необходимо самостоятельно скорректировать длину и структуру предложений, добавить уместные стилистические приемы (метафоры, сравнения, полутона, при необходимости шутки или сарказм, которые нейросетям недоступны из-за особенностей их устройства — модель может по примеру обучающих данных воспроизвести форму шутки, но не наделит ее содержанием). Необходимо отследить в тексте клишированные обезличенные формулировки вроде «согласно отчету», «некоторые утверждают», «ученые считают» и заменить их выражениями на живом человеческом языке. Обязательно нужно проверить и указать конкретные источники информации для фактов и проверить соответствие генеративных тезисов исходной достоверной информации, указанной в этих источниках.
Редактура не должна ограничиваться проверкой лексической составляющей — желательно дополнить текст собственными исследованиями, комментариями, контекстом. Если нейросеть выступает соавтором материала, об этом следует проинформировать аудиторию. Экспертная роль журналиста здесь остается критически важной — на сегодняшнем этапе развития нейросетей исключение человека из цикла производства и проверки контента невозможно без потери качества. М. М. Лукина подчеркивает необходимость также и этического регулирования этой области: «Освоение редакциями и журналистами технологий искусственного интеллекта ставит перед профессиональным сообществом задачи этического регулирования этих инновационных практик, вплоть до внесения изменений или дополнений в устоявшиеся этические кодексы» [3].
Генеративные модели открывают новые возможности для журналистики, однако требуют и системного подхода к верификации и доработке контента. Успешная интеграция нейросетевых технологий в редакционные процессы возможна только при сохранении роли журналиста в качестве эксперта, обеспечивающего достоверность, этичность и качество текстового контента в соответствии со стандартами профессии.
Литература:
- Борзова М. С. Роль фактчекинга в современной журналистике // Проблемы массовой коммуникации: материалы Всерос. науч.-практ. конф. Воронеж: Факультет журналистики ВГУ, 2017. Ч. I. С. 5–7.
- Выпуск газеты от 28 апреля 2023 № 061 (3731) (2804) [Электронный ресурс]: Газета «РБК». URL: https://www.rbc.ru/newspaper/2023/04/28 (дата обращения: 16.03.2025).
- Лукина М. М., Замков А. В., Крашенинникова М. А., Кульчицкая Д. Ю. Искусственный интеллект в российских медиа и журналистике: к дискуссии об этической кодификации // Вопросы теории и практики журналистики. 2022. Т. 11. № 4. С. 680–694.
- Соколова М. Е. ChatGPT и промпт-инжиниринг: о перспективах внедрения генеративных нейросетей в науке // Науковедческие исследования. 2024. №. 1. С. 92–109.
- Lakzaei B., Haghir Chehreghani M., Bagheri A. Disinformation detection using graph neural networks: a survey // Artificial Intelligence Review. 2024. Т. 57, №. 3. С. 52.
- Rami A. Zhijiang G., Sejr S. M. The fact extraction and verification over unstructured and structured information (FEVEROUS) shared task // Proceedings of the Fourth Workshop on Fact Extraction and verification (FEVER). Association for Computational Linguistics, Dominican Republic, 2021. С. 1–13.