Математическое бюро
Прогнозирование на ОРЭМ
Аналитик по работе с энергорынками

Краткая история проекта

В начале апреля 2019 ко мне обратился мой коллега по проектам, связанным с оптимизацией работы теплоэлектроцентралей (ТЭЦ), и предложил разработать систему краткосрочного прогнозирования энергопотребления под конкретных заказчиков — крупных потребителей электроэнергии. После пары звонков организационные вопросы были улажены, а 23 апреля 2019, в день моего рождения, подписан мой первый контракт между моим клиентом и новоиспеченным индивидуальным предпринимателем Ириной Чучуевой.

Целью моей работы является разработка системы прогнозирования, предназначенной для краткосрочного прогнозирования энергопотребления сбытовых компаний и конечных потребителей с целью формирования заявок на рынок на сутки вперед. Горизонт прогнозирования равен 24 часам.

Мне с самого начала объяснили, что от меня требуется победить в соревнованиях по прогнозированию энергопотребления в двух компаниях, работающих на оптовом рынке электроэнергии и мощности России. Согласно моему контракту я не имею права называть эти компании, так что условно назову их «АльфаЭнергоСбыт» и «ОмегаЭнергоСбыт». Победа в таких соревнованиях дает возможность обсуждать внедрение разработанных алгоритмов в ежедневную практику клиентов.

За три с половиной месяца работы, с конца апреля до начала августа, мною была разработана система краткосрочного прогнозирования энергопотребления на новом для меня языке программирования Python. В разработке системы мне помогала моя коллега Евгения Мальцева.

Соревнования по прогнозированию в «АльфаЭнергоСбыт» длились в течение августа-сентября 2019 года для трех потребителей. По итогам соревнования зафиксирована ничья, deuce, как говорят в теннисе. Ошибка прогнозирования составила следующие величины.

Потребитель Прогноз
«АльфаЭнергоСбыт»
Наш
прогноз
Потребитель 1 1,9% 1,9%
Потребитель 2 4,7% 4,2%
Потребитель 3 2,3% 2,4%

Детали результатов соревнования вы найдете в блоге Результаты соревнования в «АльфаЭнергоСбыт». Результаты соревнований в «ОмегаЭнергоСбыт» будут опубликованы немного позднее, там соревнования проводятся в течение сентября-ноября текущего года.

Ниже представлено общее описание разработанной мною системы прогнозирования энергопотребления.

Описание системы прогнозирования

Система прогнозирования представляет собой набор модулей, каждый из которых решает отдельную задачу. Модули можно разделить на основные и вспомогательные. К основным модулям относим модули обучения моделей, модуль прогнозирования; к вспомогательным — модуль обработки поступивших от клиента данных, модуль загрузки фактической температуры, модуль загрузки прогноза температуры, модуль анализа ошибки моделирования и др. В разработанной системе прогнозирования на сегодняшний день реализованы два вида моделей: нейронные сети и регрессия.

Все исходные данные для обучения моделей и прогнозирования представляют из себя временные ряды с разрешением 1 час. Значения временных рядов храним в файлах формата csv. Исходными данными для каждого потребителя являются: фактическое энергопотребление, фактическое значение температуры, профиль светового дня, календарь праздничных дней.

Полный соревновательный цикл состоит из двух этапов:

  1. подготовка моделей прогнозирования;
  2. краткосрочное прогнозирование с использованием готовых моделей в рамках соревнований.

Этап 1. Подготовка моделей прогнозирования

Процесс подготовки моделей

Для каждого потребителя, а точнее для каждой группы точек поставки (ГТП) потребления, производим следующие действия.

  1. Обрабатываем и проверяем исходные данные, сохраняем значения в форматах csv.
  2. Задаем исходные значения параметров моделей, в частности:
    • для модели на нейронных сетях: сезонность в виде номера дня недели, номера месяца в году и т.д., погодные факторы, такие как температура, профиль светового дня и др., лаги фактического потребления, лаги температуры; тип слоев нейронной сети, число нейронов промежуточных слоев и др.
    • для регрессионной модели: синусоидальная сезонность, погодные факторы, параметры основного тренда, порядок и вид регрессии для температурной зависимости, порядок и вид регрессии для авторегрессии и др.
  3. Делим выборки на обучающую и проверочную, обучаем модель.
  4. Делаем оценку качества прогноза, полученного для проверочной выборки. Многократно повторяем пункты 2, 3 и 4, добиваясь максимальной точности.
  5. По итогам обучения сохраняем модель, показавшую максимальную точность.
Алгоритм подготовки моделей
Рис. 1. Алгоритм подготовки моделей

Данный этап работ наиболее трудоемок. Подготовка модели для одного потребителя может занимать от нескольких часов до недели работы аналитика. Наиболее времязатратную работу по подбору параметров для нейронных сетей выполнила моя коллега Евгения.

Особенности прогнозирования энергопотребления

Согласно правилам оптового рынка электроэнергии и мощности России потребители, приобретающие электроэнергию на рынке, должны подать заявки на рынок на сутки вперед с прогнозом энергопотребления на завтрашний день сегодня до 13:30 по московскому времени. Подробнее о правилах функционирования оптового рынка электроэнергии читайте моего «Электрического дракона». Измерение фактически потребленной электроэнергии идет непрерывно при помощи специальных счетчиков, аналогов того, что установлены в ваших домах и квартирах, собранных в единую систему — автоматизированную систему коммерческого учета электроэнергии (АСКУЭ). Данные из системы учета электроэнергии становятся доступны не мгновенно, а после предварительной оценки и балансирования, так что сегодня, когда до 13:30 нам нужно сделать прогноз на завтра, хорошо, если у нас будут доступны значения фактического энергопотребления за вчера, т.е. до отметки времени 23:00 предыдущего дня. Однако АСКУЭ работают не идеально, а потому сегодня в первой половине дня могут быть доступны значения фактического энергопотребления лишь за позавчера или позапозавчера, или еще хуже, позапозапозавчера. А если АСКУЭ сломалась, то задержка между последней отметкой времени, на которую нужно сделать прогноз, и последним фактическим значением может превышать неделю. Такую задержку мы называем лагом. В связи с этим подготовка моделей осуществляется на каждый лаг индивидуально, т.е. для каждого потребителя готовим отдельную модель прогнозирования, соответствующую лагу 24, 48, 72, …, 216.

Лаг
Рис. 2. Лаг

Таким образом, по итогам обучения мы получаем набор моделей прогнозирования. До сих пор максимальное значение лага, с которым приходилось работать, — 192. Лаг 216 мы готовим на всякий пожарный случай.

Типы моделей прогнозирования

Как уже говорилось, в разработанной системе прогнозирования на сегодняшний день реализованы два вида моделей: нейронные сети и регрессия. Каждой модели соответствует индивидуальный модуль обучения.

1) Нейронные сети

Нейросетевые модели нынче в моде. Кроме сиюминутной прихоти дамы по имени мода модели на нейронных сетях еще в начале 2000-х годов показали высокую эффективность в решении задачи краткосрочного прогнозирования энергопотребления. Я писала об этом в своей диссертации в 2012 году.

На сегодняшний день наиболее используемый фреймворк для подготовки нейросетевых моделей — язык программирования Python, библиотека Keras с оптимизатором TensorFlow от Google. Именно данную технологию мы применяем для подготовки моделей на нейронных сетях. Основной тип применяемых слоев — Dense, полносвязные сети прямого распространения. Число предикторов, т.е. внешних факторов, подаваемых на вход сети, колеблется от 100 до 170, число оптимизируемых при обучении параметров — от 70 000 до 120 000.

Наш опыт показал, что остатки от нейронных сетей не являются белым шумом, к ним мы применяем модель авторегрессии.

2) Регрессионные модели

Для многих сегодняшних задач в области распознавания изображения, обработки звука или речи регрессионные модели не применимы. Однако для задачи краткосрочного прогнозирования энергопотребления данные модели никогда не теряли актуальности и продолжают успешно соперничать с нейронными сетями.

Регрессионная модель в разработанной системе прогнозирования представляет собой последовательность отдельных регрессионных моделей:

  1. Модель сезонности. На вход модели подаем фактические значения энергопотребления, модель извлекает из них легко распознаваемую сезонность.
  2. Температурная модель. Остатки от модели сезонности подаем на вход температурной модели, которая на сегодняшний день имеет две реализации: кусочно-линейная регрессия, градиентный бустинг.
  3. Авторегрессия. Остатки от температурной модели подаем на вход авторегрессионной модели, порядок авторегрессии доходит до нескольких сотен.

Применяемые при разработке технологии: язык программирования Python, библиотеки Scikit-learn для регрессии, XGBoost для модели градиентного бустинга.

Таким образом, для каждого потребителя на этапе подготовки к тестированию модели мы обучали модели как на нейронных сетях, так и регрессионные для каждого значения лага. Каждая модель, будь то нейронная сеть или регрессия, сохраняется в отдельном файле формата pickle. Общий набор подготовленных моделей для каждого потребителя, то есть для каждой ГТП, содержит, как правило, 18 файлов: 9 моделей на нейронных сетях для значений лага 24 — 216, 9 регрессионных моделей для тех же лагов.

Этап 2. Прогнозирование

Когда для потребителя подготовлен набор моделей, система прогнозирования готова к выполнению каждодневного прогноза. Весь функционал каждодневного прогнозирования реализован в модуле прогнозирования, он выполняет следующие действия.

  1. Загрузка фактического значения энергопотребления.
  2. Определение величины лага.
  3. Загрузка нейросетевой и регрессионной моделей для полученного значения лага.
  4. Вычисление прогноза с использованием регрессионной модели.
  5. Вычисление прогноза с использованием модели на нейронных сетях.
  6. Вычисление консенсус-прогноза — среднего значения двух исходных прогнозов.
  7. Построение графика со всеми прогнозами.
  8. Оценка качества каждого прогноза за предыдущий период.
  9. Поле ввода, где аналитик указывает применяемую модель.
  10. Формирование выходного файла формата csv, содержащего прогноз на указанную дату.

Для загрузки фактических значений энергопотребления, а также температур мы разработали отдельные модули, простые и компактные, которые парсят все исходные данные как из локальных папок, так и из сети Интернет, и сохраняют результат в рекомендованном Kaggle.com формате csv.

На этапе тестирования, помимо каждодневного прогнозирования, мы формируем внутренние отчеты, позволяющие нам оценивать как качество работы моделей, так и качество выбора модели аналитиком.

Развитие системы прогнозирования

Следующим шагом в развитии системы прогнозирования будет создание программного сервиса, Software as a Service, позволяющего гибкую интеграцию с внешними программными комплексами. Мы не планируем разработку пользовательских интерфейсов, а также модулей проверки качества исходных данных — все функции ETL, а также GUI будут переданы внешней системе. Источниками данных перестанут быть csv файлы, а станет внешняя СУБД, из которой мы сможем извлекать необходимые для расчетов значения. Результаты прогнозирования перестанут сохраняться в файл csv, а будут переданы внешнему программному комплексу. Часть функционала будущего сервиса планируем разработать на Python, остальная часть будет разработана на Java.

Дальнейшее развитие алгоритмов прогнозирования я вижу в добавлении градиентного бустинга как основной модели прогнозирования энергопотребления наравне с регрессией и нейронными сетями. Дополнительно возможно повышение точности прогнозирования за счет моделирования остатков от авторегрессии при помощи преобразования Гильберта-Хуанга (Empirical Mode Decomposition). Часть работы в данной области была проведена в июле, необходимо завершить начатые исследования. И, наконец, стоит добавить в набор моделей прогнозирования мою модель — прогнозирование временных рядов по выборке максимального подобия. В свое время реализация данной модели в MATLAB показала высокую точность, в связи с этим стоит реализовать ее на Python и включить в нашу систему прогнозирования.

Комментарии