Короткостроковий прогноз поширення COVID-19 (23.07.20 - 27.07.20)
Дата публікації 22.07.2020
Зміст
1. Прогноз поширення COVID-19 на основі Back Propagation Neural Network
2. Застосування рекурентної нейронної мережі із довгою короткостроковою пам’яттю типу LSTM
3. Порівняння результатів прогнозування поширення COVID-19 в Україні, отриманих різними методами
1. Прогноз поширення COVID-19 на основі Back Propagation Neural Network
Результати короткострокового прогнозного моделювання кількості хворих на COVID-19 в Україні і м. Києві на 23.07.20 – 27.07.20 (рис. 1-10; табл. 1, 2) отримано з використанням багатошарової нейронної мережі Back Propagation [1] на основі механізму «ковзного вікна» з кількістю точок даних для навчання нейронної мережі – 12.
Бачимо, що для України характер розвитку пандемії, за виключенням окремих сплесків, досягає рівня 600-900 нових інфікованих на день (рис. 2). Для міста Києва, спостерігаємо аналогічний характер поширення пандемії з 60-100 новими інфікованих на день (рис. 5, 6).
Середня абсолютна похибка у відсотках виконаного прогнозу не перевищує MAPE = 0.97% для України і МАРЕ = 1.4% для м. Києва (рис. 9, 10; табл. 3, 4). Зазначимо, що на більших обсягах даних (як це ми маємо для України у порівнянні з м. Києвом) нейронна мережа Back Propagation є менш чутливою до короткотермінових збурень та сплесків і дозволяє отримати меншу похибку прогнозу.
На рис. 11 та 12 наведено відповідно співвідношення кількості інфікованих і видужалих в Україні та м. Києві від вірусу SARS-CoV-2.
На рис. 13 представлено співвідношення кількості інфікованих і кількості протестованих людей ПЛР методом в Україні. На часовому відрізку з 08.06.20 року по 22.07.20 року (протягом другої хвилі сплеску пандемії) коефіцієнт кореляції між двома наведеними наборами даних є досить високим (К=0.754). Тобто, в червні-липні 2020 року між процесом тестування і процесом реєстрації інфікованих людей виявлена практично лінійна залежність.
Рисунок 13. Співвідношення кількості інфікованих і протестованих ПЛР методом в Україні
2. Застосування рекурентної нейронної мережі із довгою короткостроковою пам’яттю типу LSTM
Довірчий інтервал для прогнозу нових виявлених хворих на останню декаду липня побудуємо робастно за допомогою моделі лінійної регресії, SARIMA, методу градієнтного бустингу (XGB), із залученням рекурентних нейронних мереж із довгою короткостроковою пам’яттю (ДКЧП, англ. long short-term memory, LSTM) [2]. Робасність розуміється в такому сенсі: на першому кроці для кожної із моделей на кожен із 10 днів будуються прогнози із відповідними довірчими інтервалами із заданою статистичною точністю, де верхній селектор – це песимістичний прогноз, а нижній – оптимістичний. На другому кроці будуються шукані довірчі інтервали для кожного моменту часу як мінімальні за включенням інтервали, які містять довірчі інтервали із означених вище трьох прогнозних моделей. Прогноз виконувався на основі даних Національної служби здоров’я України [1, 2]. На рисунках 1 та 2 представлено відповідні довірчі інтервали.
З використанням рекурентної нейронної мережі LSTM побудуємо два сценарії розвитку поширення хвороби до 1 серпня 2020 року: оптимістичний і песимістичний.
Оптимістичний сценарій може відбутися за умови відсутності небажаних, непередбачуваних факторів негативного характеру. Розрахуємо прогнозні дані і довірчі інтервали прогнозу нових виявлених хворих до 1 серпня 2020 року, з урахуванням осереднених значень за 7 днів (рис. 14, табл. 5).
Рисунок 14. Оптимістичний сценарій: прогнозні дані і довірчі інтервали прогнозу нових виявлених хворих до 31 липня 2020 року
Таблиця 5. Прогнозні дані і довірчі інтервали прогнозу нових виявлених
хворих до 31 липня 2020 року (оптимістичний сценарій)
Дата | Нижня межа | Верхня межа | Середнє |
22.07.2020 | 720 | 793 | 756 |
23.07.2020 | 704 | 796 | 750 |
24.07.2020 | 687 | 791 | 739 |
25.07.2020 | 673 | 791 | 732 |
26.07.2020 | 656 | 799 | 727 |
27.07.2020 | 639 | 804 | 721 |
28.07.2020 | 637 | 802 | 719 |
29.07.2020 | 641 | 802 | 721 |
30.07.2020 | 650 | 808 | 729 |
31.07.2020 | 664 | 813 | 738 |
Статистична похибка розрахунків становить 0.03%.
Песимістичний сценарій побудовано з врахуванням ймовірних ризиків впливу, зовнішніх, негативних факторів, зокрема, можливої появи нових осередків епідемії в ході розширення охоплення населення України тестами. Прогнозні дані і довірчі інтервали прогнозу нових виявлених хворих до 31 липня 2020 року наведено на рис. 15 і в табл. 6.
Рисунок 15. Песимістичний сценарій: прогнозні дані і довірчі інтервали прогнозу нових виявлених хворих до 31 липня 2020 року
Таблиця 6. Прогнозні дані і довірчі інтервали прогнозу нових виявлених
хворих до 31 липня 2020 року (песимістичний сценарій)
Дата | Нижня межа | Верхня межа | Середнє |
22.07.2020 | 750 | 826 | 788 |
23.07.2020 | 734 | 829 | 781 |
24.07.2020 | 734 | 845 | 789 |
25.07.2020 | 742 | 871 | 806 |
26.07.2020 | 746 | 908 | 827 |
27.07.2020 | 754 | 948 | 851 |
28.07.2020 | 755 | 950 | 852 |
29.07.2020 | 782 | 978 | 880 |
30.07.2020 | 816 | 1014 | 915 |
31.07.2020 | 805 | 985 | 895 |
Статистична похибка розрахунків при побудові песимістичного сценарію також становить 0.03%.
Таким чином, на часовому відрізку (22.07.20 – 31.07.20) кількість нових виявлених хворих може коливатися в діапазоні (600 – 800) осіб на день за оптимістичним сценарієм і (700 – 1000) – за песимістичним.
3. Порівняння результатів прогнозування поширення COVID-19 в Україні, отриманих різними методами
Зведемо результати прогнозного моделювання процесу поширення пандемії COVID-19 (нових виявлених хворих), отримані з використанням рекурентної нейронної мережі із довгою короткостроковою пам’яттю типу LSTM і нейронної мережі Back Propagation, в єдину таблицю 7 і зобразимо графіки цих прогнозів на рис. 16.
Таблиця 7. Порівняння прогнозних значень нових
випадків за добу, отриманих різними методами
Дата | Back Propagation Neural Network | LSTM, оптимістичний сценарій | LSTM, песимістичний сценарій |
22.07.2020 | 850 | 756 | 788 |
23.07.2020 | 825 | 750 | 781 |
24.07.2020 | 790 | 739 | 789 |
25.07.2020 | 768 | 732 | 806 |
26.07.2020 | 730 | 727 | 827 |
27.07.2020 | 721 | 851 | |
28.07.2020 | 719 | 852 | |
29.07.2020 | 721 | 880 | |
30.07.2020 | 729 | 915 | |
31.07.2020 | 738 | 895 |
Рисунок 16. Порівняння прогнозних значень нових випадків за добу, отриманих з використанням рекурентної нейронної мережі LSTM та нейронної мережі Back Propagation
Порівнюючи отримані з використанням різних методів результати прогнозного моделювання (рис. 16) бачимо, що на відрізку часу 22.07.20 – 26.07.20 вони мають збіжність на рівні 700-900 нових хворих на день.
- Zgurovsky, Michael, Zaychenko, Yuriy P., The Fundamentals of Computational Intelligence: System Approach, Springer, 2017,https://www.springer.com/gp/book/9783319351605
- Sepp Hochreiter[en]; Jürgen Schmidhuber[en] (1997). Long short-term memory. Neural Computation[en] 9 (8): 1735–1780. PMID 9377276. doi:10.1162/neco.1997.9.8. 1735
Науковий керівник проекту: М.З. Згуровський.
Команда проєкту: Н.В. Горбань, Б.Р. Дудка, К.В. Єфремов, Ю.П. Зайченко, П.О. Касьянов, О.П. Купенко, М.М. Перестюк, І.О. Пишнограєв, В.В. Путренко.
for Geoinformatics and Sustainable Development
July 17, 2020