Математическое бюро
Прогнозирование на ОРЭМ

Статья написана в соавторстве с О.С. Образцовой

Введение

Точное прогнозирование мировой цены на нефть крайне важно для формирования бюджета России [1], [2]. Задача расчета долгосрочного прогноза затруднена тем, что цена на нефть складывается в результате влияния множества разнородных факторов, значимость которых меняется во времени [3]. В настоящей работе исследовано влияние солнечной активности на точность нейросетевого прогноза цены на нефть марки BRENT.

Факторы, влияющие на формирование цены на нефть

Факторы, определяющие механизм ценообразования на нефтяном рынке, существенно нелинейны, многосвязны, нестационарны. Они являются случайными величинами, их число достигает нескольких десятков [3]. Многообразие и неопределенность регрессоров чрезвычайно усложняют проблему построения адекватной регрессионной модели. Тем более что процедуры регрессионного анализа правомерны в условиях выполнения жесткого предположения о детерминированности независимых переменных. Ситуация осложняется еще и тем, что современный нефтяной рынок сформировался относительно недавно (приблизительно в 1986 году) и имеет короткую историю [3]. Применение искусственных нейронных сетей (ИНС) для прогнозирования кардинально не улучшает ситуацию. Так, в работе [4] рассчитан нейросетевой прогноз цены нефти BRENT на 2015 год равный 90,4 $/баррель, при этом использовались следующие факторы: научно-технический прогресс, открытие альтернативных источников энергии, рост ВВП, военные конфликты и др., в действительности цена нефти составила 52 $/баррель

Единственным фактором, известным с абсолютной точностью является время, что и стимулирует исследователей применять методы анализа временных рядов. В работе [5] представлен прогноз цены нефти на 2017, 2018 гг., рассчитанный при помощи комбинации нелинейной регрессии, авторегрессионной модели, ИНС. Средний модуль относительной ошибки составил 20%.

Начиная с ранних работ А.Л. Чижевского, статистические исследования показывают, что универсальным фактором, связанным с социально-экономическими процессами, является число солнечных пятен, часто измеряемое в числах Вольфа [6]. Динамика солнечной активности проявляется на Земле не прямо, а в сложной опосредованной и трудно выявляемой форме, тем не менее, осуществляются настойчивые попытки использовать ее для создания прогнозных моделей динамики цены на нефть [7], [8].

Целью настоящей работы является исследование влияния чисел Вольфа на прогноз, рассчитанный на основе нелинейной регрессионной модели, метода экспоненциального сглаживания и рекуррентной ИНС.

На рисунке 1 представлены зависимости от времени цены на нефть и чисел Вольфа.

Зависимости от времени цены на нефть и чисел Вольфа
Рис.1 Зависимости от времени цены на нефть и чисел Вольфа

Отчетливо видна гармоническая закономерность динамики чисел Вольфа с выраженным периодом. Напротив, цена нефти (P, $/баррель) не имеет циклического характера, ее можно описать при помощи функционала [5]:

(1)

где PTrcalc — рассчитываемый нелинейный тренд, α, β, γ, ξ, а, в, с — оцениваемые параметры.

Модель (1) аппроксимирует два относительно резких взлета и последующего падения цены нефти в 1984 и 2012 годах. Короткая выборка исторических данных не позволяет сделать однозначный вывод о стационарности подъемов/спадов цены. Остаются открытыми вопросы о возможности появления нового пика, его высоты и времени начала образования. Для ответа на эти вопросы требуется независимый фактор. В этой связи целесообразно исследовать зависимость точности прогноза от длины обучающей выборки, полученного как методами анализа временных рядов, так и с привлечением чисел Вольфа.

Методика проведения расчетов

Во второй половине 2019 года известно, что формирование последнего пика цены закончилось в 2017 году. Опираясь на результаты [5], предположим наступление относительно стабильного периода динамики цены. В качестве тестовой части выборки определим цену нефти за два, пять и пятнадцать последних лет.

На основе обучающей выборки (среднегодовая цена нефти BRENT c 1969 по 2018 г.г.) рассчитаем нелинейный тренд по уравнению (1). Разность P-PTrcalc используем для расчета прогноза по методу экспоненциального сглаживания. На рисунке 2 показаны экспериментальные данные, нелинейный тренд и аппроксимация по методу экспоненциального сглаживания.

Исходные данные, нелинейный тренд и аппроксимация по методу экспоненциального сглаживания
Рис.2 Исходные данные, нелинейный тренд и аппроксимация по методу экспоненциального сглаживания

Полученную автокорреляционную аппроксимацию цены нефти подадим на вход ИНС с одним слоем DENSE и одним слоем GRU [9] для расчета прогноза на тестовой части выборки. Для уменьшения переобучения в слой GRU (Gated Recurrent Unit) предусмотрена процедура прореживания нейронов. Случайный характер этой опции приводит к некоторому разбросу результатов расчета, что позволяет оценить неопределенность решения.

Повторим процедуру прогнозирования 100 раз, построим гистограммы распределения модуля относительной ошибки, и рассчитаем среднее для трех разных обучающих выборок. Затем добавим числа Вольфа во входную матрицу, рассчитаем прогноз при тех же параметрах нейронной сети и сравним результаты.

Результаты представлены на рисунках 3-5 и в таблице 1.

Гистограммы распределения ошибки при 2 точках
Рис.3 Гистограммы распределения ошибки при 2 тестовых точках c учетом (синяя) и без учета чисел Вольфа (оранжевая)

Гистограмма распределения ошибки при 5 точках
Рис.4 Гистограмма распределения ошибки при 5 тестовых точках c учетом (синяя) и без учета чисел Вольфа (оранжевая)

Гистограммы распределения ошибки при 15 точках
Рис.5 Гистограммы распределения ошибки при 15 тестовых точках c учетом (синяя) и без учета чисел Вольфа (оранжевая)

Таблица 1. Среднее значение относительной ошибки

Число тестовых точек С учетом чисел Вольфа Без учета чисел Вольфа
2 0.075 0.201
5 0.209 0.203
15 0.432 0.424

Результаты расчетов показывают, что при малой глубине прогноза (~4% от обучающей выборки) включение во входные данные чисел Вольфа значительно уменьшает ошибку. На более глубоком интервале прогнозирования результаты становятся практически одинаковыми.

Для иллюстрации на рисунках 6 и 7 представлены реальные данные и прогнозные значения при 2 и 15 тестовых точках.

Реальные данные и прогнозные значения при 2 тестовых точках
Рис.6 Реальные данные и прогнозные значения при 2 тестовых точках

Реальные данные и прогнозные значения при 15 тестовых точках
Рис.6 Реальные данные и прогнозные значения при 15 тестовых точках

Из полученных результатов можно сделать вывод о том, что включение чисел Вольфа в обучающую выборку значительно повышает качество прогноза. Вместе с тем, на основе массива данных, включающего только один пик цены, не удается точно предсказать появление второго пика.

Использованные программные средства

Язык Python предоставляет обширные вычислительные средства для обработки данных, что делает его незаменимым при решении многих задач из области Big Data. Ниже представлена небольшая часть многообразия модулей и библиотек.

Библиотека Pandas позволяет легко и быстро работать с данными: читать/записывать в разных форматах — EXCEL, CSV, JSON. Проводить арифметические и логические операции, визуализировать данные. Предоставляет специальные инструменты для анализа временных рядов.

Модуль Numpy имеет в своем составе функции работы с многомерными массивами данных, линейную алгебру, линейную регрессию и пр.

Модуль Satsmodels содержит модели прогнозирования временных рядов, том числе, Хольт-Винтерс, экспоненциальное сглаживание.

Модуль Keras по сути является удобным конструктором, позволяющим создавать нейросетевые модели необходимой конфигурации: тип слоев и их количество, число нейронов в каждом слое и т.д.

Mathplotlib — удобный графический пакет для визуализации результатов расчета.

Использование этих модулей облегчает программирование, позволяя максимально сосредоточиться на содержательной (физической, технической, экономической и т.д.) сути решаемой задачи.

Заключение

Вычислительными средствами языка Python проведено исследование влияние солнечной активности на точность прогноза цены нефти BRENT. Выявлено значительное повышение точности краткосрочного прогноза при совместном использовании аппроксимации методами анализа временных рядов и чисел Вольфа. Однако при увеличении глубины интервала прогнозирования включение чисел Вольфа не уменьшает относительную ошибку.

Литература

1. Набиуллина рассказала о последствиях падения нефти до $35 за баррель // Интернет-источник: https://iz.ru/815058/video/nabiullina-rasskazala-o-posledstviiakh-padeniia-nefti-do-35-za-barrel

2. Силуанов допустил падение цен на нефть ниже 40$ за баррель // Интернет-источник: https://www.gazeta.ru/business/news/2019/04/13/n_12862159.shtml

3. Бушуев В.В., Конопляник А.А., Миркин Н.М. Цены на нефть: анализ, тенденции, прогноз. М. ИД «Энергия». 2013.

4. С.В. Матвеев, О.В. Есипова. Прогнозирование цены на нефть при помощи нейросетевой модели // Yong Scietist, #20(79), December 2014. Интернет-источник: https://moluch.ru/archive/79/14164/

5. С.М. Образцов. Нейросетевое прогнозирование цен на нефть и золото

6. Н.В. Сокотущенко. Влияние солнечной активности на социально-политические явления // Энергетическая политика, №1, 2013, стр. 60–66

7. В.А. Белкин. Прогнозирование цен на нефть на основе их средних значений по годам одиннадцатилетнего цикла солнечной активности (1970—2016) // Интернет- источник: https://cyberleninka.ru/article/n/prognozirovanie-tsen-na-neft-na-osnove-ih-srednih-znacheniy-po-godam-odinnadtsatiletnego-tsikla-solnechnoy-aktivnosti-1970-2016

8. В.А. Белкин. Циклы цен на нефть и магнитных бурь: механизм и факты сильных связей (1861—2015 гг.) / Челяб. гуманитарий. — 2015. — № 3 (32). — С. 17—30. Интернет- источник: http://papers.ssrn.com/sol3/papers.cfm?abstract_id=2714738

9. Ф. Шолле. Глубокое обучение на Python / Изд-во «Питер». 2019.

Комментарии