В этой статье прогнозируются изменения цен на нефть и газ. Разработка метода прогнозирования и оценки рисков и неопределенностей при прогнозировании добычи и подсчете потенциально извлекаемых запасов нефти на месторождениях с использованием методов машинного обучения и ГИС.
Задачи исследования:
— изучение развития рынка нефти и динамики развития системы ценообразования;
— разработать классификацию существующих моделей ценообразования на мировом нефтяном рынке, дать критическую интерпретацию и обобщить результаты;
— провести детальный анализ цен на нефть с целью поиска модели с использованием ГИС для составления прогноза;
— создание собственного комбинированного метода прогнозирования на мировом нефтяном рынке, учитывающего структурную и финансовую составляющие рынка, исходя из существующей структурной модели.
1. Систематизация моделирования формирования цены на нефть
Чтобы смоделировать процесс ценообразования на мировом рынке нефти, нам необходимо понять, как формировался этот рынок и как развивалась система ценообразования. Для этого проанализируем все исторические изменения внутри отрасли, которые могли повлиять на процесс ценообразования на нефть и характеристики рынка в целом.
Статья нацелена на разработку метода прогнозирования и оценки рисков и неопределенностей при прогнозировании добычи и подсчете потенциально извлекаемых запасов нефти на месторождениях с использованием методов машинного обучения и ГИС.
Решение:
Алгоритм
Загрузка данных
На рисунке 1 вы можете увидеть библиотеки, которые мы использовали для прогнозирования и анализа данных, и файл, из которого мы считываем данные.
Рис. 1. Библиотеки для загрузки файла с данными
Мы собрали данные о ценах на нефть с 2004 года по настоящее время. Итак, у нас есть шесть тысяч данных за этот период времени. На рисунке 2 вы можете увидеть, как мы собирали цены на нефть, и как их цена менялась время от времени.
Рис. 2. Вывод данных цены
Для прогнозирования цен на нефть мы создали 9 значений, которые представляют собой разные нефтегазовые компании. Сравнивая их цены на следующих шагах, мы сделаем прогнозирование цен между ними. Название нефтегазовых компаний вы можете увидеть на рисунке 3 и информацию о них с 2004 года, цены на нефть и названия компаний представлены ниже.
Рис. 3. Газовые и нефтяные компании — значения
Следующий шаг — анализ данных. Данные, которые мы взяли из файла, можно представить в виде графика с 1988 по 2023 год, чтобы увидеть изменения цены на нефть, представленные на рисунке 4.
Рис. 4. Простой линейный график цены на нефть
Собрав данные с 2004 по 2022 год, мы создали парный график с 2004 по 2022 год с использованием цветового градиента, который точно показывает изменения. У каждого цвета свой год, он показан на цифре 5 справа от нее.
Рис. 5. Парный график изменений с 2004 по 2022 гг.
Следующий шаг — проанализировать цену на нефть и представить ее в виде графика. Скрипичный график цен на нефть за последние пять лет представлен на рисунке 6. Кроме того, мы провели такой же анализ для каждой нефтегазовой компании за последние пять лет, в левой части графика цена акций масштабируется от коэффициента 0. к 1. Как компании изменили свою цену на нефть за последние пять лет по коэффициенту, представленному на рисунке 7.
Рис. 6. Violin plot цены на нефть
Рис. 7. Violin plot цены акций нескольких нефтегазовых компаний
На следующем графике показано, как цены на нефть могут зависеть от цен на акции. На рисунке 8 мы видим сетку, принадлежащую каждой компании. Синяя линия — изменение каждой компании, а серая — их цены в разное время работы.
Рис. 8. График зависимости цены на нефть от цены акций разных компаний с использованием разных шаблонов
Основная часть нашей работы — прогнозирование с помощью машинного обучения. Чтобы сделать прогноз по предыдущим данным, мы должны разделить его на классификацию и кластеры. Классификация — обучение с учителем, а кластер — обучение без учителя. Сначала мы делаем классификацию данных, а затем разделяем их на кластеры. Как вы можете на рисунке 9 мы использовали KMeans для неконтролируемого обучения для кластерного анализа данных оболочки.
Кластеризация — это разделение множества входных векторов на группы (кластеры) по степени «похожести» друг на друга. Самый простой, но в то же время довольно неточный метод кластеризации в классической реализации. Он разбивает набор элементов векторного пространства на заранее известное количество кластеров k. Эффект алгоритма таков, что он стремится минимизировать стандартное отклонение в точках каждого кластера. Основная идея заключается в том, что на каждой итерации производится перерасчет центра масс для каждого кластера, полученного на предыдущем шаге, затем векторы снова разбиваются на кластеры в соответствии с тем, какой из новых центров оказался ближе по выбранной метрике. Алгоритм завершается, когда на некоторой итерации не происходит никаких изменений кластера.
На рисунке 9 вы видите 6 разных цветовых узоров, это 6 кластеров.
Рис. 9. Кластерный анализ данных Shell
Чтобы протестировать и обучить данные, которые у нас уже были, мы разделяем их на две части: тестовые данные и данные обучения, благодаря чему мы можем увидеть, как данные обучения и тестовые данные могут измениться по нашему параметру. Когда мы измеряем цену на нефть каждой компании, каждый график будет давать нам квадрат ошибки, и их важность будет измеряться этим, его результат приведен на рисунке 10.
Рис. 10. Random Forest по цене акций Royal Dutch Shell в зависимости от цены на нефть
Рисунок 11 представляет собой введение в прогнозирование временных рядов с использованием рекуррентных нейронных сетей (RNN, от англ. Recurrent Neural Network, RNN). Он состоит из двух частей: первая описывает прогноз температуры воздуха на основе одномерного временного ряда, вторая — на основе многомерного временного ряда.
Функция ниже возвращает описанные выше временные интервалы для обучения модели. Аргумент истории — это размер последнего временного интервала, цель — это аргумент, определяющий, как далеко в будущее модель должна научиться предсказывать. Другими словами, цель — это целевой вектор, который необходимо предсказать.
Рис. 11. Изменение параметров цены на нефть
Заключение
В результате работы мы решили поставленные задачи.
- По результатам моделирования процесса оценки рентабельности нефтегазовых проектов показано, что отсутствие количественной оценки рисков и неопределенности приводит к недостижению запланированной эффективности и снижению качества принятие решения.
- Разработан метод количественной оценки рисков и неопределенностей в прогнозе добычи и расчета потенциально извлекаемых запасов нефти на обводненных месторождениях с использованием машинного обучения и моделей характеристик вытеснения.
В данной статье были изложены методы прогнозирования цен акций на нефть, а также разные виды графиков зависимости цен нефти к времени. Благодаря прошлым данным получилось установить связь с изменением цен в будущем. Были также использованы разные функции для наглядности.
Литература:
- Флач П. Машинное обучение. Наука и искусство построения алгоритмов, извлекающих знания из данных. — Москва: ДМК Пресс, 2015. — 400 с.
- Марманис Х., Бабенко Д. Алгоритмы интеллектуального Интернета. — СПб, Символ-Плюс, 2011. — 480 с.
- Загоруйко Н. Г. Прикладные методы анализа данных и знаний. — Н., ИМ СО РАН, 1999. — 270 с. 4
- Мэннинг К. Д., Рагхаван П. Введение в поиск информации. — М.: ООО «Уильямс И. Д»., 2011. — 528 с.
- Лесковец Ю., Раджараман А. Анализ больших наборов данных. — М.: ДМК-Пресс, 2016. — 498 с.
- Новиков А. А. Дискретная математика: Учебник для вузов, 3-е изд. Стандарт третьего поколения. — Санкт-Петербург; СПб, 2017. — 496 с.
- Гнеденко Б. В., Хинчин А. Я. Элементарное введение в теорию вероятностей. — М.: ЛЕНАНД, 2016. — 208 с.
- Коралов Л. Б., Синай Я. Г. Теория вероятностей и случайные процессы. / Перевод с англ. Pedestrian E. V..; изд. Гуревич Б. М. — М.: ИКМНО, 2013. — 408 с.
- Бослаф С. Статистика для всех. — М.: ДМК-Пресс, 2017. — 586 с.
- Брюс Э. Брюс П. Практическая статистика для специалистов по Data Science. — СПб: БХВ-Петербург, 2018. — 304 с.
- Миркин Б. Введение в анализ данных. — Москва: Юрайт, 2014. — 174 с.
- Рубан А. И. Методы анализа данных. — Красноярск: ЧПИ КарГТУ, 2004. 319 с.
- Архипова М., Дуброва Т. Анализ данных. — М.: Юрайт, 2017. — 492 с.
- Атрейя К. Б., Досс Х., Сетураман Дж. О сходимости метода моделирования цепей Маркова // Анналы статистики, 1996, № 1. 24, стр. 69–100.
- Нил П., Рао Т. С. MCMC для процессов ARMA с целочисленными значениями // Журнал анализа временных рядов, 2007, № 1, с. 28, стр. 92–110.
- Йохен В. А. и Спайви, Дж. П. Вероятностная оценка запасов с использованием анализа кривой снижения с помощью метода начальной загрузки. Документ представлен на ежегодной технической конференции и выставке SPE, Денвер, Колорадо, 1996 г. SPE 36633-MS.
- Ченг Ю., Ван Ю., Маквей Д., Ли В.Дж. Практическое применение вероятностного подхода к оценке запасов с использованием данных о снижении добычи. SPE Economics and Management 2 (1), 2010, стр. 1047–1057. DOI: 10.2118/95974-pa.