Настоящее исследование посвящено комплексному анализу, разработке и внедрению системы прогнозирования динамики фондового рынка с использованием передовых методов машинного обучения. В условиях высокой волатильности финансовых инструментов и непредсказуемой природы рыночных процессов данное исследование представляет собой попытку создать методологически обоснованный подход к предсказанию цен акций с применением гибридных алгоритмических стратегий, сочетающих классические эконометрические модели и современные глубинные нейросетевые архитектуры.
Работа демонстрирует потенциал междисциплинарного подхода, объединяющего эконометрические методы, алгоритмы машинного обучения и теоретические концепции финансовой аналитики. Полученные результаты обладают высокой воспроизводимостью и могут быть использованы в дальнейших исследованиях, направленных на совершенствование моделей предсказания финансовых временных рядов и разработку стратегий управления инвестиционными рисками.
Ключевые слова: LSTM, ML, ARIMA, R 2 , future engineering, прогнозирование, нейросетевые модели, фондовый рынок, макроэкономические индикаторы.
Фондовый рынок представляет собой сложную и динамичную систему, поведение которой зависит от множества макроэкономических, политических и поведенческих факторов. С учётом роста объёма доступных данных и развития вычислительных мощностей, особое внимание уделяется применению методов машинного обучения (ML) для прогнозирования цен акций. ML позволяет выявлять скрытые закономерности в данных, которые невозможно определить традиционными методами.
Существуют различные подходы к прогнозированию временных рядов фондового рынка:
- Традиционные статистические методы (ARIMA, GARCH) хорошо работают с линейными зависимостями, но не справляются с нелинейностями и высокой волатильностью.
- Машинное обучение (решающие деревья, SVM, Random Forest, XGBoost) способно захватывать сложные зависимости и даёт хорошую обобщающую способность.
- Глубокое обучение (RNN, LSTM, GRU) показывает высокую эффективность при анализе временных рядов благодаря памяти о предыдущих состояниях [1].
В рамках данного исследования была использована рекуррентная нейронная сеть типа LSTM (Long Short-Term Memory), обладающая способностью учитывать долгосрочные зависимости в последовательностях. В отличие от стандартных рекуррентных нейронных сетей (RNN), которые подвержены проблеме исчезающего градиента и, как следствие, плохо обучаются на длинных временных рядах, архитектура LSTM решает эту проблему за счёт встроенных механизмов памяти и управления потоком информации через входные, выходные и забывающие гейты. Это делает LSTM особенно подходящей для моделирования исторических рядов цен акций.
LSTM использует три гейта: забывающий, входной и выходной, которые контролируют поток информации в ячейке памяти. Это позволяет сети запоминать критически важные изменения ценовых уровней и рыночных трендов, даже если они происходили много шагов назад [2].
Несмотря на высокую точность предсказаний, LSTM требует значительных вычислительных ресурсов и тщательной настройки гиперпараметров, включая размер скрытого слоя, длину запоминаемой последовательности и скорость обучения. Оптимизация этих параметров и применение регуляризации являются важными аспектами, влияющими на производительность модели в условиях высокой волатильности фондового рынка.
Одной из важнейших предпосылок для успешного прогнозирования стоимости акций является формирование качественного набора исходных данных. Качество входных данных напрямую влияет на точность и эффективность моделей, разработанных на основе методов машинного обучения [3].
Для фактического исследования были отобраны исторические данные по акциям компаний, торгуемых на американской фондовой бирже Nasdaq, Inc. Источник данных — известный финансовый сервис Yahoo Finance. Выбор биржи Nasdaq обусловлен её высоким уровнем ликвидности и широкой доступностью исторических данных по различным активам.
Конкретно для исследования были выбраны следующие компании:
- Apple Inc. Common Stock (тикер: AAPL)
- Microsoft Corporation Common Stock (тикер: MSFT)
- Advanced Micro Devices, Inc. Common Stock (тикер: AMD)
- NVIDIA Corporation Common Stock (тикер: NVDA)
Выбор данных активов обусловлен их высокой капитализацией, ликвидностью и значительным влиянием на фондовые индексы США, что делает их особенно привлекательными для анализа и прогнозирования.
Сбор данных проводился с помощью специально написанного сниппета на языке Python — Import_prices. Он использует API-соединение с ресурсом Yahoo Finance, что позволило автоматически загружать исторические котировки акций в виде структурированных DataFrame.
Следующий этап — обучение модели. Это процесс, в ходе которого нейронная сеть на основе исторических данных выявляет скрытые закономерности и взаимосвязи между предыдущими и будущими значениями цены акции. Основная цель обучения — сформировать такую модель, которая будет способна эффективно прогнозировать цену акции в будущем периоде, основываясь на ранее полученных данных.
В процессе обучения модель LSTM анализирует длинные последовательности данных, выделяя в них закономерности. Качество прогноза модели напрямую зависит от того, насколько обширным и репрезентативным является набор исторических данных.
Основным параметром варьирования был временной интервал данных, на которых обучалась модель. Для анализа были выбраны три периода:
— с 2010 года,
— с 2021 года,
— с 2023 года.
Оценка качества модели проводилась по метрикам RMSE, MAE, R², MAPE, MSE и SMAPE, основываясь на сравнении предсказанных значений (Predicted) с фактическими (Actual). Для визуализации результатов были построены графики, показывающие различие между предсказанными и реальными ценами.
Согласно метрикам, наилучшие предсказания модель показала при обучении на данных с 2021 года. В частности:
— Для MSFT коэффициент детерминации R² = 0.4682, что указывает на сравнительно высокую предсказательную способность модели.
— Ошибки RMSE, MAE и MAPE для MSFT оказались ниже, чем у других акций, что делает этот тикер наиболее предсказуемым.
— Для AAPL, AMD и NVDA значения R² оказались отрицательными, что говорит о низком качестве предсказаний, хотя их ошибки были меньше, чем в других временных интервалах.
— На графиках видно, что модель довольно точно предсказывает тренды для MSFT, но для AAPL и NVDA наблюдается недооценка цен.
Для периода с 2023 года метрики показали значительное ухудшение точности:
— Значения R² для всех тикеров стали отрицательными, что говорит о том, что модель хуже предсказывает цены, чем простая усреднённая модель.
— RMSE и MAPE увеличились, особенно для AAPL (R² = -14.8945) и NVDA (R² = -6.6950), что указывает на слабую способность модели к предсказанию в коротких временных интервалах.
— MSFT снова показал лучшие результаты среди всех тикеров, но его R² также оказалось отрицательным (-1.8865), а ошибки выше, чем в 2021 году.
— На графиках видно, что предсказанные цены для AAPL сильно занижены по сравнению с фактическими значениями, а для NVDA наблюдается значительное расхождение в периоды высокой волатильности.
Обучение на длительном временном периоде (с 2010 года) привело к наихудшим результатам:
— Катастрофически низкие значения R² для AAPL (-106.9019), AMD (-38.5730) и MSFT (-85.9210) показывают, что модель не смогла уловить актуальные тренды.
— Огромные ошибки (RMSE до 75.3823 для AMD и 74.8735 для MSFT) свидетельствуют о значительном отклонении предсказаний от фактических значений.
— Единственным исключением стал NVDA, у которого R² (-1.0784) оказалось выше, чем в 2023 году, а RMSE составило всего 4.4852, что можно объяснить меньшей волатильностью акций за этот период.
— Анализ данных показывает, что предсказанные цены сильно отличаются от реальных, причём для AMD и MSFT это особенно заметно.
Различия в результатах могут быть обусловлены следующими факторами: обновляемость данных — более свежие данные (2021) содержат актуальную информацию о рынках, что позволяет модели лучше адаптироваться к текущим условиям; ложность паттернов — чем больше временной промежуток, тем больше рыночных изменений модель должна учитывать, что снижает её точность при обучении на старых данных (2010); волатильность акций — для различных акций предсказательная способность модели отличается. MSFT продемонстрировал лучшие результаты, поскольку его динамика менее подвержена резким изменениям по сравнению с высоковолатильными AMD и NVDA; графический анализ — визуализация предсказаний показывает, что модель лучше всего справляется с плавными трендами, но испытывает трудности в моменты резких скачков цен.
Таким образом, лучшие результаты продемонстрировала модель, обученная на данных с 2021 года, особенно для MSFT. Наихудшие результаты были при обучении на данных с 2010 года, что объясняется устареванием информации и изменением рыночных условий. Короткий период обучения (с 2023 года) также привёл к низкому качеству предсказаний, что может быть связано с недостатком исторических данных для выявления долгосрочных трендов. Анализ графиков подтверждает выводы по метрикам, показывая заниженные предсказания для AAPL и расхождения в моменты высокой волатильности для NVDA и AMD. Результаты предсказанных значений, и фактических значений акций в аналогичные дни можно увидеть на представленных таблицах (табл. 1, табл. 2, табл. 3, табл. 4).
Таблица 1
Предсказанные и реальные цены NVDA на 2024 год
Дата |
Предсказанная цена |
Реальная цена |
01.03.2024 |
81,28587 |
82,24811 |
04.03.2024 |
82,30531 |
85,205 |
05.03.2024 |
83,41293 |
85,93576 |
06.03.2024 |
84,5916 |
88,67086 |
07.03.2024 |
85,8289 |
92,63856 |
08.03.2024 |
87,11625 |
87,49925 |
11.03.2024 |
88,44785 |
85,74583 |
12.03.2024 |
89,81977 |
91,88281 |
13.03.2024 |
91,22921 |
90,85814 |
14.03.2024 |
92,67415 |
87,91511 |
15.03.2024 |
94,153 |
87,80814 |
18.03.2024 |
95,66435 |
88,42594 |
19.03.2024 |
97,20685 |
89,36864 |
20.03.2024 |
98,77908 |
90,34232 |
21.03.2024 |
100,3796 |
91,40496 |
22.03.2024 |
102,0066 |
94,25803 |
25.03.2024 |
103,6583 |
94,97079 |
26.03.2024 |
105,3327 |
92,53059 |
27.03.2024 |
107,0276 |
90,22035 |
28.03.2024 |
108,7404 |
90,32632 |
Таблица 2
Предсказанные и реальные цены AMD на 2024 год
Дата |
Предсказанная цена |
Реальная цена |
01.03.2024 |
172,7686 |
202,64 |
04.03.2024 |
172,9808 |
205,36 |
05.03.2024 |
172,8557 |
205,13 |
06.03.2024 |
172,5184 |
210,63 |
07.03.2024 |
172,0425 |
211,38 |
08.03.2024 |
171,4718 |
207,39 |
11.03.2024 |
170,8331 |
198,39 |
12.03.2024 |
170,1431 |
202,76 |
13.03.2024 |
169,413 |
194,79 |
14.03.2024 |
168,6504 |
187,06 |
15.03.2024 |
167,8611 |
191,06 |
18.03.2024 |
167,0495 |
190,65 |
19.03.2024 |
166,2197 |
181,42 |
20.03.2024 |
165,3747 |
179,73 |
21.03.2024 |
164,5176 |
178,68 |
22.03.2024 |
163,6509 |
179,65 |
25.03.2024 |
162,777 |
178,63 |
26.03.2024 |
161,898 |
177,87 |
27.03.2024 |
161,0159 |
179,59 |
28.03.2024 |
160,1324 |
180,49 |
Таблица 3
Предсказанные и реальные цены AAPL на 2024 год
Дата |
Предсказанная цена |
Реальная цена |
01.03.2024 |
178,1463013 |
178,8156586 |
04.03.2024 |
177,6814728 |
174,2770844 |
05.03.2024 |
177,1365356 |
169,3204803 |
06.03.2024 |
176,5401917 |
168,3251801 |
07.03.2024 |
175,9121857 |
168,2057648 |
08.03.2024 |
175,2658844 |
169,9276276 |
11.03.2024 |
174,6104431 |
171,9381409 |
12.03.2024 |
173,9520874 |
172,415863 |
13.03.2024 |
173,295105 |
170,3257599 |
14.03.2024 |
172,6425476 |
172,1869507 |
15.03.2024 |
171,9965363 |
171,8087311 |
18.03.2024 |
171,3586426 |
172,9035797 |
19.03.2024 |
170,730072 |
175,2524872 |
20.03.2024 |
170,1116638 |
177,830307 |
21.03.2024 |
169,5042114 |
170,564621 |
22.03.2024 |
168,9081726 |
171,4703522 |
25.03.2024 |
168,3240204 |
170,0470734 |
26.03.2024 |
161,898 |
177,87 |
27.03.2024 |
161,0159 |
179,59 |
28.03.2024 |
160,1324 |
180,49 |
Таблица 4
Предсказанные и реальные цены MSFT на 2024 год
Дата |
Предсказанная цена |
Реальная цена |
01.03.2024 |
178,1463013 |
178,8156586 |
04.03.2024 |
177,6814728 |
174,2770844 |
05.03.2024 |
177,1365356 |
169,3204803 |
06.03.2024 |
176,5401917 |
168,3251801 |
07.03.2024 |
175,9121857 |
168,2057648 |
08.03.2024 |
175,2658844 |
169,9276276 |
11.03.2024 |
174,6104431 |
171,9381409 |
12.03.2024 |
173,9520874 |
172,415863 |
13.03.2024 |
173,295105 |
170,3257599 |
14.03.2024 |
172,6425476 |
172,1869507 |
15.03.2024 |
171,9965363 |
171,8087311 |
18.03.2024 |
171,3586426 |
172,9035797 |
19.03.2024 |
170,730072 |
175,2524872 |
20.03.2024 |
170,1116638 |
177,830307 |
21.03.2024 |
169,5042114 |
170,564621 |
22.03.2024 |
168,9081726 |
171,4703522 |
25.03.2024 |
168,3240204 |
170,0470734 |
26.03.2024 |
167,7520905 |
168,9124298 |
27.03.2024 |
167,192627 |
172,4955139 |
28.03.2024 |
166,6458282 |
170,6740875 |
Исходя из вышеперечисленного, для предсказания цен акций модель LSTM лучше всего обучать на относительно свежих данных (примерно 2–3 года), а также учитывать индивидуальные особенности тикеров, такие как их волатильность и динамику роста. Также, полученные результаты позволяют утверждать, что эффективность модели LSTM варьируется в зависимости от характеристик конкретного временного ряда. Модель демонстрирует наибольшую предсказательную способность в условиях умеренной волатильности и стабильной трендовой структуры, как в случае с акциями Microsoft. Отдельного внимания заслуживает наблюдение, что даже при наличии малых значений относительных ошибок возможны отрицательные значения R², что указывает на необходимость комплексного анализа качества модели по множеству метрик, а не полагаться исключительно на одну из них.
В целом, проведённый количественный анализ подтверждает, что модель LSTM может быть эффективно использована для краткосрочного прогнозирования финансовых временных рядов, однако её предсказательная способность значительно зависит от структуры данных, длительности обучающего периода, рыночной динамики актива, а также от наличия резких колебаний цен в исследуемом периоде.
В ходе данной работы была предпринята попытка моделирования и прогнозирования цен на фондовом рынке с применением методов машинного обучения, в частности нейросетевых архитектур типа LSTM (долгосрочная краткосрочная память). Несмотря на кажущуюся перспективность данного подхода, по результатам исследования и анализа можно сделать ряд важных выводов, касающихся как практической применимости таких моделей, так и фундаментальных ограничений, связанных с природой самого фондового рынка.
Хотя архитектура LSTM была специально разработана для обработки временных рядов и устранения проблем исчезающего градиента, она не является панацеей при работе с финансовыми данными. Одним из главных недостатков модели в контексте фондового рынка является её склонность к переобучению — особенно при использовании ограниченного объема данных. В условиях высокой волатильности и частой смены рыночных трендов модель LSTM зачастую «запоминает» закономерности, которые были релевантны в прошлом, но не имеют значения в будущем.
Кроме того, модели LSTM требуют тщательной настройки гиперпараметров, архитектуры сети и объема обучающей выборки. В условиях ограниченного набора признаков, ограниченного размера исторических данных, а также без учёта фундаментальных и новостных факторов, модель демонстрирует крайне ограниченную способность к обобщению. Это особенно критично при прогнозировании на более длительные временные горизонты, когда краткосрочные паттерны теряют актуальность.
Также важной проблемой является «запаздывание» в предсказаниях, когда модель вместо прогноза на следующий день фактически дублирует значение предыдущего — эффект, обусловленный высокой автокорреляцией данных и неустойчивостью рыночных сигналов.
Фондовый рынок представляет собой крайне сложную, стохастическую и во многом хаотичную систему. Он подвержен влиянию множества экзогенных факторов: политические события, экономические отчёты, глобальные кризисы, заявления центробанков, поведение крупных игроков (институциональных инвесторов) и даже паника или эйфория среди розничных инвесторов. Ни одна модель, основанная исключительно на исторических ценах, не способна учесть всего спектра этих факторов в полной мере.
Таким образом, высокая чувствительность рынка к внешним «шокам» делает его плохо предсказуемым в традиционном смысле. Даже сложные модели глубокого обучения, такие как LSTM, не обладают истинной «интеллектуальностью», чтобы предугадать подобные события — они лишь находят повторяющиеся паттерны в данных, но не интерпретируют причинно-следственные связи.
Рынок также страдает от так называемой «эффективности» (гипотеза эффективного рынка), согласно которой вся доступная информация уже заложена в текущих ценах [4]. Это ставит под сомнение саму возможность долгосрочного прогнозирования с помощью алгоритмов машинного обучения.
С точки зрения макроэкономики, полученные результаты можно трактовать в контексте экономических циклов, которые включают в себя фазы роста, пика, спада и восстановления. Проведённый анализ позволяет сделать вывод о том, что модель LSTM наиболее эффективно функционирует в фазе экономического роста — между кризисами , когда рыночные показатели демонстрируют стабильную позитивную динамику, а уровень неопределённости относительно низок. Именно в такие периоды наблюдается умеренная волатильность, обусловленная структурными трендами, а не экзогенными шоками, что и создаёт условия для предсказуемости движения цен. Напротив, в фазах спада, в условиях высокой инфляции, нестабильности валютных курсов, геополитической напряженности и нестабильной денежно-кредитной политики предсказуемость финансовых временных рядов резко снижается, что обесценивает саму идею построения прогностических моделей, основанных на исторических паттернах.
Особое внимание в ходе исследования было уделено коэффициенту детерминации (R²)как обобщающему показателю качества модели. В большинстве случаев наблюдались отрицательные значения R², что указывает на неспособность модели даже приблизительно описать структуру данных лучше, чем простое среднее. Такие результаты следует рассматривать не как неудачу конкретной модели, а как симптом более глубоких проблем, связанных с хаотичностью и стохастической природой фондового рынка . Динамика цен акций формируется под действием множества факторов — как количественных (макроэкономические индикаторы, процентные ставки, индексы деловой активности), так и качественных (психология инвесторов, рыночные ожидания, информационные шоки), многие из которых не поддаются формализации и, соответственно, не могут быть учтены в модели, опирающейся исключительно на числовую историю цен.
Полученные в ходе моделирования коэффициенты детерминации (R²) оказались достаточно низкими, что указывает на слабую объясняющую способность модели по отношению к наблюдаемым данным. Значение R² близкое к нулю (или даже отрицательное) свидетельствует о том, что модель практически не объясняет дисперсию целевой переменной и работает хуже, чем простая модель «среднего значения».
Это также подтверждает, что даже на тренировочной выборке модель не смогла уловить значимых закономерностей, не говоря уже о тестовой выборке, где прогнозная сила оказалась минимальной. Такой результат напрямую указывает на высокую степень хаотичности и шумности временного ряда фондового рынка, а также на недостаточную релевантность выбранных признаков и моделей.
Кроме того, поведение рынков подвержено так называемым «чёрным лебедем» (термин Насима Талеба), то есть редким, но чрезвычайно значимым событиям, не имеющим аналогов в исторических данных. Такие события — будь то глобальные финансовые кризисы, пандемии, геополитические конфликты или внезапные регуляторные изменения — полностью разрушают предсказательные способности любой модели, основанной на предыдущих наблюдениях. Это подтверждает необходимость не только статистического подхода, но и комплексного системного анализа, включающего элементы сценарного моделирования, стресс-тестов и поведенческой экономики.
Несмотря на вышеперечисленные ограничения, нельзя полностью исключать потенциал машинного обучения и нейросетевых архитектур в контексте анализа и прогнозирования фондового рынка. Однако очевидно, что для повышения эффективности таких моделей необходимо значительно расширять набор признаков: включать макроэкономические индикаторы, индексы деловой активности, данные с новостных агрегаторов (sentiment analysis), а также учитывать поведение других участников рынка (например, данные об объёмах торгов, открытых позициях и т. д.).
Будущее за комплексными гибридными моделями, сочетающими в себе как нейросетевые компоненты, так и традиционные эконометрические методы. Кроме того, необходимо использовать ансамбли моделей и методы байесовской оптимизации для повышения устойчивости к переобучению и адаптивности к меняющимся рыночным условиям.
Также перспективным направлением является использование Reinforcement Learning (обучение с подкреплением) и агентных моделей, где алгоритм не только предсказывает цену, но и оптимизирует стратегии покупки/продажи на основе потенциальной прибыли [5].
В итоге, несмотря на низкую эффективность модели LSTM в рамках проведенного эксперимента, исследование позволяет чётко очертить границы применимости машинного обучения в задачах фондового прогнозирования. Данный опыт является основой для дальнейших более комплексных и масштабных исследований, которые, возможно, смогут преодолеть текущие ограничения и найти более эффективные подходы к анализу рыночной динамики.
Проведённое исследование показало, что модель Long Short-Term Memory (LSTM) обладает потенциалом для прогнозирования динамики цен акций, особенно в условиях умеренной волатильности и устойчивых трендов. LSTM хорошо справляется с задачей захвата краткосрочной последовательной зависимости, что позволяет ей адаптироваться к закономерным движениям котировок, наблюдаемым в финансовых временных рядах. Однако эффективность модели значительно зависит от качества и объёма данных , а также от характеристик конкретного актива.
Наилучшие результаты достигаются при обучении модели на данных за последние 2–3 года, что позволяет ей адаптироваться к актуальному рыночному поведению и избежать переобучения на устаревших закономерностях. Для таких тикеров, как MSFT, отличающихся умеренной динамикой и устойчивыми трендами, модель продемонстрировала положительный коэффициент детерминации и минимальные ошибки, что указывает на успешную аппроксимацию реальных данных.
Литература:
- Напалков Д. А. Анализ подходов к прогнозированию динамики фондового рынка // Экономика и бизнес: теория и практика. — 2021. — № 7.
- Абдулкадир С. Дж., Мунир А., Сумиеа Э. Х., Алькушайби А., Рагаб М. Г. RNN-LSTM: от применения к методам моделирования и далее — систематический обзор // Журнал Университета короля Сауда — Компьютерные и информационные науки. — 2024. — Т. 36, № 5.
- Андрианова Е. Г., Новикова О. А. Роль методов интеллектуального анализа текста в автоматизации прогнозирования рынка ценных бумаг // Cloud of science. 2018. № 1.
- Абдуллин А. Р., Фаррахетдинова А. Р. Гипотеза эффективности рынка в свете теории финансов // УЭкС. — 2015. — № 4 (76).
- Мясников А. В. Применение машинного обучения с подкреплением в задаче тестирования на проникновение // Естественные и технические науки. — 2020. — Январь. — DOI: 10.37882/2223–2966.2020.11.26.