Skip to content

Latest commit

 

History

History
28 lines (23 loc) · 8.05 KB

README.md

File metadata and controls

28 lines (23 loc) · 8.05 KB

Digital Team

Система прогнозирования частоты вызовов скорой помощи в зависимости от внешних факторов

Задача: Интеллектуальный сервис для оптимизации работы скорой помощи

Тизер

Высокоточная система прогнозирования частоты вызовов скорой помощи, которая учитывает входящие данные от оператора и множество дополнительных внешних факторов. На основе данных показывается число вызовов предсказанное системой, количество рекомендуемых бригад, а также подробная статистика, помогающая пользователю решить сколько нужно выделить бригад на следующий день/неделю. Решение не требует обучение персонала и использует только свободно распространяемое программного обеспечения. Приложение обладает интуитивно понятным интерфейсом. Снижает время подачи машины и увеличивает эффективность использования ресурсов больниц, включая персонал и оборудование.

Уникальность:

В системе объединены несколько методов прогнозирования, для обеспечения большей точности. Учли наиболее частые причины обращений и проработали отдельно зависимости внешних факторов по каждой из причин.Алгоритм подсказывает наиболее эффективную связку подстанций и больницы, основываясь на расстоянии между местом вызова и подстанцией, типе бригады и количестве свободных бригад.

Стек технологий:

Python, HTML/CSS, PHP, Pandas, CatBoost, Geopy, Numpy, Open Street Map, Matplotlib, Jupyter Notebook.

ССылка на демо: https://disk.yandex.ru/d/Rlwz-GXpwmrSjw

Описание работы парсера

Вначале производится сканирование корневой директории и построение списка xls файлов, затем каждый файл с помощью свободнораспространяемой библиотеки xlrd по очереди загружается в объект памяти book. Далее таблица анализируется на предмет цветовых признаков ячеек (серый RGB 240,240,240) - они являются ключами, а все что после двоеточия за ними - значениями. Так же сразу на лету выполняется отбраковка и проверка значений, так же производятся предварительные вычисления, такие как время прибытия скорой с момента звонка, возраст догодовалого ребенка десятичных долях года вместо месяцев (6 месяцев = 0.5), время в формате юникс и так далее. Полученный словарь (ключ:значение) объединяется с другими в единый датасет и сохраняется на диск в друх вариантах - CSV и JSON

Описание и обоснование выбора гипотез для расчетов статистики

Для статистических расчетов использовалась свободнораспространяемая библиотека pandas, с её помощью загружается датафрейм из текстового файла главным индексом и сортировкой по времени. В первую очередь интересовало время подачи кареты скорой помощи с момента вызова, что на наш взгляд является одним из ключевых факторов качества оказания медицинской услуги, на то она и "скорая". При среднедневной разбивке за весь предоставленный период каких-то особых отклонений на наше удивление замечено не было ( в том числе с разбивкой по дням недели нельзя было выделить какой либо из дней ) - скорая стабильно изо дня в день за редкими исключениями приезжала в среднем за 10-15 минут, что вполне приемлемо, хотя если данные о времени прибытия заполнялись вручную, не опираясь на показания ГЛОНАСС, быть может они и "подогнаны" под нормативы, дабы избежать штрафных санкций (человеческий фактор). Либо число бригад выходит на дежурство с большим избытком и это число как раз потому возможно и нуждается в оптимизации.

Описание методики и моделей построения прогноза

Очищенный парсером и библиотекой pandas от аномалий и вбросов датасет был поделен классически на три выборки - тренировочный, проверочный, тестовый. Далее для модели созданной в свободнораспространяемом отечественном пакете cat_boost были созданы различные временные ряды, такие как скользящая средняя на 7 дней (наилучший результат), -2 дня, -1 день и так далее. Метрика оценки была выбрана так же по классике R^2. На 7-дневном графике точность составила порядка 80%, что не есть отлично, поэтому было принято решения обогатить данные из сторонних источников. В качестве гипотез для этого рассматривались такие факторы как начиная с классических температуры и давления, заканчивая данными о солнечной активности, магнитных бурь, лунных циклов, загрязненности воздуха, частотой упоминания в СМИ тех или иных ключевых слов (ковид, пожар, гололедица, мчс). Увы, не все данные хорошо и в нужном готовом формате представлены в открытых источниках, и так же нуждаются в своих отдельных парсерах. Более подробную схему моделей и каналов обогащения смотрите в нашей презентации.

Наша команда

Касмынин Кирилл - [email protected]

Леонтьев Михаил - [email protected]

Останина Алина - [email protected]

Хозяинов Александр - [email protected]

Дмитрий Соколов - [email protected]