Короткостроковий прогноз COVID-19

Короткостроковий прогноз поширення COVID-19 (23.07.20 - 27.07.20)

Дата публікації 22.07.2020

 Зміст

1. Прогноз поширення COVID-19 на основі Back Propagation Neural Network

2. Застосування рекурентної нейронної мережі із довгою короткостроковою пам’яттю типу LSTM

3. Порівняння результатів прогнозування поширення COVID-19 в Україні, отриманих різними методами

Посилання

Команда проєкту

 

1. Прогноз поширення COVID-19 на основі Back Propagation Neural Network

Результати короткострокового прогнозного моделювання кількості хворих на COVID-19 в Україні і м. Києві на 23.07.20 – 27.07.20 (рис. 1-10; табл. 1, 2) отримано з використанням багатошарової нейронної мережі Back Propagation [1] на основі механізму «ковзного вікна» з кількістю точок даних для навчання нейронної мережі – 12.

Бачимо, що для України характер розвитку пандемії, за виключенням окремих сплесків, досягає рівня 600-900 нових інфікованих на день (рис. 2). Для міста Києва, спостерігаємо аналогічний характер поширення пандемії з 60-100 новими інфікованих на день (рис. 5, 6).

Середня абсолютна похибка у відсотках виконаного прогнозу не перевищує MAPE = 0.97% для України і МАРЕ = 1.4% для м. Києва (рис. 9, 10; табл. 3, 4). Зазначимо, що на більших обсягах даних (як це ми маємо для України у порівнянні з м. Києвом) нейронна мережа Back Propagation є менш чутливою до короткотермінових збурень та сплесків і дозволяє отримати меншу похибку прогнозу. 

На рис. 11 та 12 наведено відповідно співвідношення кількості інфікованих і видужалих в Україні та м. Києві від вірусу SARS-CoV-2. 

На рис. 13 представлено співвідношення кількості інфікованих і кількості протестованих людей ПЛР методом в Україні. На часовому відрізку з 08.06.20 року по 22.07.20 року (протягом другої хвилі сплеску пандемії) коефіцієнт кореляції між двома наведеними наборами даних є досить високим (К=0.754). Тобто, в червні-липні 2020 року між процесом тестування і процесом реєстрації інфікованих людей виявлена практично лінійна залежність.

 

Рисунок 13. Співвідношення кількості інфікованих і протестованих ПЛР методом в Україні

2. Застосування рекурентної нейронної мережі із довгою короткостроковою пам’яттю типу LSTM

Довірчий інтервал для прогнозу нових виявлених хворих на останню декаду липня побудуємо робастно за допомогою моделі лінійної регресії, SARIMA, методу градієнтного бустингу (XGB), із залученням рекурентних нейронних мереж із довгою короткостроковою пам’яттю (ДКЧП, англ. long short-term memory, LSTM) [2]. Робасність розуміється в такому сенсі: на першому кроці для кожної із моделей на кожен із 10 днів будуються прогнози із відповідними довірчими інтервалами із заданою статистичною точністю, де верхній селектор – це песимістичний прогноз, а нижній – оптимістичний. На другому кроці будуються шукані довірчі інтервали для кожного моменту часу як мінімальні за включенням інтервали, які містять довірчі інтервали із означених вище трьох прогнозних моделей. Прогноз виконувався на основі даних Національної служби здоров’я України [1, 2]. На рисунках 1 та 2 представлено відповідні довірчі інтервали.

З використанням рекурентної нейронної мережі LSTM побудуємо два сценарії розвитку поширення хвороби до 1 серпня 2020 року: оптимістичний і песимістичний.

Оптимістичний сценарій може відбутися за умови відсутності небажаних, непередбачуваних факторів негативного характеру. Розрахуємо прогнозні дані і довірчі інтервали прогнозу нових виявлених хворих до 1 серпня 2020 року, з урахуванням осереднених значень за 7 днів (рис. 14, табл. 5).

Рисунок 14Оптимістичний сценарій: прогнозні дані і довірчі інтервали прогнозу нових виявлених хворих до 31 липня 2020 року

Таблиця 5. Прогнозні дані і довірчі інтервали прогнозу нових виявлених
хворих до 31 липня 2020 року (оптимістичний сценарій)

Дата Нижня межа Верхня межа Середнє
22.07.2020 720 793 756
23.07.2020 704 796 750
24.07.2020 687 791 739
25.07.2020 673 791 732
26.07.2020 656 799 727
27.07.2020 639 804 721
28.07.2020 637 802 719
29.07.2020 641 802 721
30.07.2020 650 808 729
31.07.2020 664 813 738

Статистична похибка розрахунків становить 0.03%. 

Песимістичний сценарій побудовано з врахуванням ймовірних ризиків впливу, зовнішніх, негативних факторів, зокрема, можливої появи нових осередків епідемії в ході розширення охоплення населення України тестами. Прогнозні дані і довірчі інтервали прогнозу нових виявлених хворих до 31 липня 2020 року наведено на рис. 15 і в табл. 6.

Рисунок 15Песимістичний сценарій: прогнозні дані і довірчі інтервали прогнозу нових виявлених хворих до 31 липня 2020 року

Таблиця 6. Прогнозні дані і довірчі інтервали прогнозу нових виявлених
хворих до 31 липня 2020 року (песимістичний сценарій)

Дата Нижня межа Верхня межа Середнє
22.07.2020 750 826 788
23.07.2020 734 829 781
24.07.2020 734 845 789
25.07.2020 742 871 806
26.07.2020 746 908 827
27.07.2020 754 948 851
28.07.2020 755 950 852
29.07.2020 782 978 880
30.07.2020 816 1014 915
31.07.2020 805 985 895

Статистична похибка розрахунків при побудові песимістичного сценарію також становить 0.03%.

Таким чином, на часовому відрізку (22.07.20 – 31.07.20) кількість нових виявлених хворих може коливатися в діапазоні (600 – 800) осіб на день за оптимістичним сценарієм і (700 – 1000) – за песимістичним.

3. Порівняння результатів прогнозування поширення COVID-19 в Україні, отриманих різними методами

Зведемо результати прогнозного моделювання процесу поширення пандемії COVID-19 (нових виявлених хворих), отримані з використанням рекурентної нейронної мережі із довгою короткостроковою пам’яттю типу LSTM і нейронної мережі Back Propagation, в єдину таблицю 7 і зобразимо графіки цих прогнозів на рис. 16.

Таблиця 7Порівняння прогнозних значень нових
випадків за добу, отриманих різними методами

Дата Back Propagation Neural Network LSTM, оптимістичний сценарій LSTM, песимістичний сценарій
22.07.2020 850 756 788
23.07.2020 825 750 781
24.07.2020 790 739 789
25.07.2020 768 732 806
26.07.2020 730 727 827
27.07.2020   721 851
28.07.2020   719 852
29.07.2020   721 880
30.07.2020   729 915
31.07.2020   738 895

Рисунок 16. Порівняння прогнозних значень нових випадків за добу, отриманих з використанням рекурентної нейронної мережі LSTM та нейронної мережі Back Propagation

Порівнюючи отримані з використанням різних методів результати прогнозного моделювання (рис. 16) бачимо, що на відрізку часу 22.07.20 – 26.07.20 вони мають збіжність на рівні 700-900 нових хворих на день.

 

Посилання

  1. Zgurovsky, Michael, Zaychenko, Yuriy P., The Fundamentals of Computational Intelligence: System Approach, Springer, 2017,https://www.springer.com/gp/book/9783319351605
  2. Sepp Hochreiter[en]; Jürgen Schmidhuber[en] (1997). Long short-term memory. Neural Computation[en] 9 (8): 1735–1780. PMID 9377276. doi:10.1162/neco.1997.9.8. 1735

 

Науковий керівник проекту: М.З. Згуровський.

Команда проєкту: Н.В. Горбань, Б.Р. Дудка, К.В. Єфремов, Ю.П. Зайченко, П.О. Касьянов, О.П. Купенко, М.М. Перестюк, І.О. Пишнограєв, В.В. Путренко.

 
© World Data Center
    for Geoinformatics and Sustainable Development
    July 17, 2020