Модель экстраполяции временных рядов по выборке максимального подобия

Аватар пользователя chuchueva

Введение

Задача прогнозирования будущих значений временного ряда на основании его текущих и прошлых значений является основой для 1) планирования в экономике и торговле, 2) планирования выпуска продукции, 3) складского контроля, 4) управления и оптимизации промышленных процессов и т.д. [1]. В настоящее время методы прогнозирования продолжают интенсивно развиваться параллельно с развитием систем хранения данных и вычислительных мощностей.

Методы прогнозирования можно разделить на интуитивные и формализованные [2]. Согласно обзору [3] формализованные методы делятся на две категории – статистические и методы искусственного интеллекта.

В статистических методах для вычисления прогнозируемого значения временного ряда определяется некоторое уравнение, полученное на основании изучения истории временного ряда и отражающее зависимость будущих значений ряда от его истории и/или внешних факторов.

Методы искусственного интеллекта имитируют процесс мышления человека в изучении истории и предсказании будущих значений ряда. В работе рассматривается статистический метод прогнозирования временных рядов.

Математическая зависимость значений временного ряда за пределами его фактических значений от этих фактических значений называется моделью экстраполяции [4]. В настоящей работе предлагается новая модель экстраполяции временных рядов на основе выборки максимального подобия.

Исследование эффективности предложенной модели экстраполяции выполнено на временных рядах цен рынка на сутки вперед оптового рынка электроэнергии и мощности (далее цен РСВ) и энергопотребления того же рынка (далее энергопотребления). Экстраполированные значения энергопотребления и цен РСВ необходимы организациям, регулирующим энергосистему, для управления ее техническими и экономическими параметрами. Кроме того, экстраполированные значения энергопотребления и цен РСВ помогают участникам энергорынка повышать свои финансовые результаты [3,5-7].

Заметим, что задача прогнозирования цен РСВ для России является новой. Особенность ее состоит в том, что по мере реформирования энергорынка России алгоритм расчета цен РСВ подвергается изменениям. Цены РСВ до 01.01.2008 года рассчитывались по одному алгоритму, затем алгоритм был изменен. Важность прогнозирования временного ряда цен РСВ для участников рынков электроэнергии отмечается, например, в работе [3].

Задача прогнозирования энергопотребления имеет множество специализированных моделей, созданных за последние годы [8-10], однако исследования в данной области продолжаются.

Статья содержит в себе описание предлагаемой модели экстраполяции, а также алгоритм решения задачи идентификации модели. Далее в статье приведены результаты, подтверждающие эффективность предложенной модели. В заключении указаны особенности предложенной модели.

1. Модель экстраполяции

В работе речь идет о дискретных временных рядах, значения которых получены в моменты времени t1, t2, t3,…, tN. Указанные моменты времени могут быть неравноотстоящими.

Временной ряд Z(t) = z(t1), z(t2), z(t3),…, z(tN) обозначим = z1, z2, z3,…, zN. Набор последовательных значений = zt, zt+1, zt+2,…, zt+M-1, лежащих внутри временного ряда , назовем выборкой из этого ряда длины M с моментом начала отсчета t. Разность начал отсчетов выборок , назовем задержкой k.

Коэффициент корреляции выборок , определим как

      ,       (1)

где – ковариация исходных выборок, а и – их дисперсии [1].

На основе коэффициента корреляции (1) введем меру подобия выборок ,

      .

Величина зависит от длины M выборок ,, а также от задержки k. Мера подобия характеризует степень линейной зависимости выборок и : чем ближе к единице значение , тем выше их линейная зависимость.

Определим для выборки величины , ,…, и найдем их максимальное значение

      .

Выборку, соответствующую задержке kmax обозначим и назовем выборкой максимального подобия для выборки . Легко видеть, что для выборки справедливо равенство

      .

Гипотеза подобия. Если выборки , имеют значение величины близкое к единице, то для некоторых значений P и выборок , значение величины также близко к единице.

Представленные в разделе 3 результаты прогнозирования подтверждают справедливость гипотезы для временных рядов энергопотребления и цен РСВ. Для временных рядов из других предметных областей справедливость гипотезы необходимо проверять.

Аппроксимируем выборку с помощью выборки :

      ;

      ;       (2)

Здесь a1 и a0 – вещественные константы, E – M-мерный вектор значений ошибок аппроксимации, а аппроксимированные значения . Тогда выборку можно выразить через некоторую выборку , лежащую внутри исходного временного ряда Z(t), в виде

      ;       (3)

Алгоритм определения выборки имеет следующий вид.

- Для выборки находим выборку максимального подобия , где kmax* = N – M + 1 – kmax.

- Согласно (2), аппроксимируем выборку с помощью выборки :

      .       (4)

- В соответствии с гипотезой подобия, в качестве выборки используем выборку , то есть выборку, расположенную на оси времени сразу за выборкой максимального подобия (рис. 1)

Рис. 1. Положения выборок на оси времени.

В формуле (4) вещественные константы a1 и a0 определяются путем решения методом наименьших квадратов задачи

      ,

подробно рассмотренной в работе [11].

Таким образом, экстраполированные значения временного ряда Z(t) определяются формулой

      .       (5)

которая представляет собой модель экстраполяции временных рядов по выборке максимального подобия (extrapolation model on most similar pattern, EMMSP).

2. Идентификация модели экстраполяции

Задачу идентификации модели (5), то есть задачу нахождения параметра M, предлагается решать по следующей схеме.

Исходный временной ряд Z(t) разделим на три части в пропорции 2:2:1. Полученные части назовем базовый период (40%), тестовый период (40%) и контрольный период (20%) временного ряда соответственно.

- Исходя из решаемой задачи прогнозирования, определяем значение P, а также диапазон возможных значений параметра M. Первоначально рекомендуется брать широкий диапазон возможных значений M, например, , а затем его последовательно уточнять.

- Для каждого значения параметра M из установленного диапазона, прогнозируем значения временного ряда внутри тестового периода.

- По результатам прогнозирования определяем среднюю абсолютную ошибку прогноза (mean absolute error, MAE)

      .       (5)

где K – количество значений временного ряда, попавших в тестовый период.

- Строим график зависимости MAE от M для тестового периода и определяем диапазон значений M, соответствующий устойчивому минимуму MAE.

- На последнем шаге экспертом выбирается параметр модели М внутри диапазона устойчивого минимума.

Рассмотрим в качестве примера зависимость MAE от M для временного ряда энергопотребления европейской территории РФ, представленного на рис. 2. Первоначально был выбран диапазон , внутри которого выделены значения . На последнем шаге экспертно было выбрано значение M = 216.

Рис. 2. Зависимость MAE от параметра модели M.

3. Эффективность модели экстраполяции

Исследования эффективности модели экстраполяции (4) выполнено на следующих временных рядах, предоставленных ОАО «АТС» [12]:

- энергопотребление европейской ценовой зоны (ЕЦЗ);

- энергопотребление сибирской ценовой зоны (СЦЗ);

- цена РСВ европейской ценовой зоны (ЕЦЗ);

- цена РСВ сибирской ценовой зоны (СЦЗ).

Каждый временной ряд содержит почасовые равноотстоящие значения за период с 01.09.2006 по 30.09.2009. Кроме экстраполяции почасовых значений указанных временных рядов на следующие сутки, ставится задача экстраполяции агрегированных суточных значений – суммарного энергопотребления за сутки и среднего значения цены РСВ за сутки. Параметры временных рядов представлены в таблице 1.

Таблица 1. Параметры временных рядов

Временной ряд Длина
ряда
Серднее
значение
Стандартное
отклонение
Минимум Максимум
Почасовое разрешение
Энергопотребление ЕЦЗ (МВт.ч) 27 023 81 441 10 640 57 847 110 586
Энергопотребление СЦЗ (МВт.ч) 27 023 22 338 3 023 15 328 30 666
Цена РСВ ЕЦЗ (руб./ МВт.ч) 27 023 610 194 0 1 559
Цена РСВ СЦЗ (руб./ МВт.ч) 27 023 368 185 0 1 029
Суточное разрешение
Энергопотребление ЕЦЗ (МВт.ч) 1 126 1 954 502 218 255 1 519 197 2 438 008
Энергопотребление СЦЗ (МВт.ч) 1 126 536 101 68 930 408 408 695 606
Цена РСВ ЕЦЗ (руб./ МВт.ч) 1 126 610 144 221 1 204
Цена РСВ СЦЗ (руб./ МВт.ч) 1 126 368 176 0 734

Задача экстраполяции временных рядов цен РСВ и энергопотребления, имеющих почасовое разрешение, заключается в нахождении 24 почасовых значений временного ряда на будущие сутки. Для рядов, имеющих суточное разрешение, задача экстраполяции состоит в нахождении одного значения на будущие сутки. Согласно работе [3] обе задачи экстраполяции относятся к категории краткосрочного прогнозирования.

В качестве контрольного периода прогнозирования использован период с 01.03.2009 по 30.09.2009 (семь месяцев, около 5000 значений для временных рядов, имеющих часовое разрешение; около 200 значений для рядов, имеющих суточное разрешение).

В таблицах 2, 3 приведены численные результаты точности прогнозирования, а также указаны параметры моделей M каждого временного ряда, полученные путем решения задачи идентификации по схеме раздела 2. Приведенные значения параметра M могут быть взяты за основу при работе с временными рядами энергопотребления и цен РСВ. Для временных рядов другой предметной области необходимо решать задачу идентификации заново.

Для сравнения точности экстраполяции кроме величины MAE оценивалась также средняя абсолютная ошибка в процентах (mean absolute percentage error, MAPE)

      .

Здесь Q – количество значений временного ряда, попавших в контрольный период.

3.1. Прогнозирование энергопотребления.

Результаты прогнозирования энергопотребления представлены в таблице 2.

Временной ряд Разрешение М MAE, МВт.ч MAPE,% Время экстраполяции, час
Энергопотребление европейской ценовой зоны Почасовое 216 1 347 1.04 1.80
Суточное 6 19 736 1.10 0.15
Энергопотребление сибирской ценовой зоны Почасовое 24 378 1.86 4.20
Суточное 8 7 727 1.44 0.05

Полученные значения величины MAPE краткосрочного прогнозирования лежат в диапазоне от 1.04% до 1.86%.

Проведем сравнение достигнутой точности с точностью прогнозирования энергопотребления, указанной в других публикациях. В работе [3] описаны результаты краткосрочного прогнозирования энергопотребления Шанхайской энергосистемы (Shanghai Power Grid) и приведены значения MAPE различных моделей экстраполяции в диапазоне от 2.8% до 3.4% в зависимости от их особенностей. Разработчики специализированного программного пакета «Энергостат» в статье [7] приводят значения MAPE краткосрочного прогнозирования энергопотребления для регионов РФ за 2000 год, которые лежат в диапазоне от 1.21% до 3.32% (в зависимости от региона). Австрийская компания iRM (www.irm.at), производитель программного продукта iOPT PRO для прогнозирования энергопотребления, указывает значения MAPE краткосрочного прогнозирования энергопотребления 1 – 2%.

Приведенные результаты краткосрочного прогнозирования энергопотребления показывают эффективность применения предложенной в работе модели экстраполяции временных рядов по выборке максимального подобия для решения задачи прогнозирования временных рядов энергопотребления.

3.2. Прогнозирование цен РСВ.

Результаты прогнозирования цены РСВ представлены в таблице 3. Из таблицы видно, что значения MAPE для цен РСВ сибирской ценовой зоны велики в связи с тем, что в контрольном периоде имеются нулевые значения цен РСВ, которые при анализе ошибок замещались на 0.01 (т.е. 1 коп./МВт.ч).

Таблица 3. Результаты прогнозирования цен РСВ

Временной ряд Разрешение М MAE, МВт.ч MAPE,% Время экстраполяции, час
Цена РСВ европейской ценовой зоны Почасовое 360 49.54 7.00 2.10
Суточное 16 34.50 4.81 0.04
Цена РСВ сибирской ценовой зоны Почасовое 84 65.90 39.78 4.93
Суточное 30 60.39 32.93 0.04

Выше отмечалось, что задача экстраполяции цен РСВ для энергорынка России является новой, потому нет возможности выполнить сравнение точности краткосрочного прогнозирования. В единственно доступно источнике [13] приведено значение MAE для краткосрочного прогнозирования цен РСВ, равное 55.09 руб./МВт.ч.

Для аналогичной задачи прогнозирования цен энергорынков Испании и Калифорнии в работе [5] указаны значения MAPE, равные 5 – 10% (в зависимости от месяца). Кроме того, в работе [5] указано, что данный уровень точности прогнозирования является достаточным для эффективного финансового планирования на указанных рынках. Предложенная в данной работе модель экстраполяции позволила получить для европейской ценовой зоны значения MAPE, равные 4.8% и 7.0% (таблица 3). На этом основании можно утверждать, что разработанная модель экстраполяции эффективна для краткосрочного прогнозирования цен РСВ европейской ценовой зоны. В тоже время, из таблицы 3 видно, что задача экстраполяции цен РСВ сибирской ценовой зоны требует дополнительных исследований и доработок модели.

Заключение

В работе предложена модель экстраполяции временных рядов по выборке максимального подобия. Основные особенности модели экстраполяции заключаются в следующем.

- Модель экстраполяции по выборке максимального подобия решает задачи краткосрочного прогнозирования (от 1 до 50 значений вперед).

- Модель не накладывает ограничений ни на непрерывность, ни на стационарность временного ряда.

- Для работы с моделью желательно, чтобы временной ряд содержал не менее 1000 отсчетов.

- Модель может быть расширена с целью решения задачи экстраполяции временного ряда с учетом влияния внешних факторов, представленных в виде других временных рядов (например, учет температуры при прогнозировании энергопотребления).

Представленные в работе результаты подтверждают эффективность использования модели для прогнозирования исследуемых временных рядов цен РСВ и энергопотребления. В развитие работы планируется оценить эффективность модели экстраполяции для задач прогнозирования временных рядов из других предметных областей.

Автор выражает благодарность своему научному руководителю д.т.н., профессору Ю.Н. Павлову, а также д.ф.м-.н., профессору А.П. Карпенко за помощь в обсуждении модели, постановке задачи для экспериментов и подготовке статьи.

Литература

1. Бокс Дж., Дженкинс Г.М. Анализ временных рядов, прогноз и управление. – М.: Мир, 1974. – С. 406.

2. Тихонов Э.Е. Прогнозирование в условиях рынка. – Невинномысск, 2006. – С. 221.

3. M. Sc. Jingfei Yang. Power System Short-term Load Forecasting – Elektrotechnik und Informationstechnik der Technischen Universitat Darmstadt. – 2006. – C. 81 – 84.

4. Extrapolation [Электронный ресурс] // The free encyclopedia «Wikipedia» 2001. (http://en.wikipedia.org/wiki/Extrapolation).

5. Reinaldo C. Garcia A. GARCH Forecasting Model to Predict Day-Ahead Electricity Prices. – German Institute of Economic Research, Germany. – 2003. – С. 9 – 12.

6. Макоклюев Б.И., Ёч В. Ф. Взаимосвязь точности прогнозирования и неравномерности графиков электропотребления // Энергетик. – 2005 г. – № 5. – С .20.

7. Макоклюев Б.И., Владимиров А.И., Фефелова Г.И. Прогнозирование потребления электроэнергии АО Мосэнерго // Энергетик. – 2001 г. – № 4. – С .12.

8. Badran Saeed M. Short term Electrical Load Forecasting // Australian Journal of Basic and Applied Sciences. – 2009. – №1. – C. 9.

9. Kumar M. Short-term load forecasting using artificial neural network techniques. – Department of Electrical Engineering National Institute of Technology Rourkela, 2009. – C. 48.

10. Al-Shareef A. J., Mohamed E. A., Al-Judaibi E. One hour ahead load forecasting using artificial neural network for the Western Area of Saudi Arabia. – World Academy of Science, Engineering and Technology, 2008. –C. 6.

11. Draper N. R., Smith H. Applied regression analysis. – New York: Wiley, In press, 1981. – С. 693.

12. Открытое акционерное общество «Администратор торговой системы оптового рынка электроэнергии и мощности». (http://www.atsenergo.ru/).

13. BI EnergoPrice. «Прогнозирование цен на электроэнергию». (http://www.bi-grouplabs.ru/Rech/electricity/BI_EnergoPrice.html).

Для добавления комментариев войдите или зарегистрируйтесь

2010 - 2017 © Математическое бюро

Все права защищены в соответствии с законодательством РФ

При полном или частичном использовании материалов ссылка на сайт обязательна