6.1 Сбор и подготовка данных (ETL)
Функциональный блок ETL (Extract–Transform–Load) в платформе “Цифровой Двойник Города” (ЦДГ) обеспечивает непрерывный процесс сбора, нормализации, агрегации и подготовки данных, поступающих из различных источников. Его задача — превратить разрозненные статистические, бухгалтерские и административные массивы в чистую, сопоставимую и пригодную для моделирования информационную основу.
ETL-процесс организован в виде последовательных этапов (конвейеров), каждый из которых решает определённую задачу:
- ETL-1: сбор данных из муниципальных, региональных, федеральных и международных источников, перекодировка, устранение ошибок, нормализация и формирование единой витрины;
- ETL-2: выполнение расчётных моделей — демографии, экономики, межотраслевых связей и других — на основе унифицированных данных;
- ETL-3: расчёт целевых показателей, индексов, матриц чувствительности, дефицитов, профицитов и производных индикаторов;
- ETL-4: подготовка агрегированных паспортов решений, генерация сценарных профилей, расчет устойчивости и привязка к целям программ.
Каждый этап автоматизирован, прозрачен и воспроизводим. Данные проходят через этапы валидации, логического контроля и версионирования. Источники сохраняются, а ключевые поля фиксируются в структуре, что позволяет не только использовать результат, но и объяснить его происхождение.
ETL-конвейер легко расширяется под новые задачи: цифровая модель ТЭК, составление и прогнозирование топливно-энергетических балансов (ТЭБ), модели расчётов для Минсельхоза, интеграция с задачами Росфинмониторинга, экологических служб или новых федеральных показателей. Новая задача формируется в виде отдельного модуля или ветки внутри существующего конвейера, не нарушая работу базовых блоков и сохраняя устойчивость всей платформы.
Архитектура ETL-блоков построена с прицелом на масштабируемость — новые источники, регионы, форматы и отчёты могут быть подключены без перестройки логики. Этот функционал является основой для всех расчётов, моделей и визуализации в ЦДГ, формируя “цифровый фундамент” всей системы.