6.1 Сбор и подготовка данных (ETL)

Функциональный блок ETL (Extract–Transform–Load) в платформе “Цифровой Двойник Города” (ЦДГ) обеспечивает непрерывный процесс сбора, нормализации, агрегации и подготовки данных, поступающих из различных источников. Его задача — превратить разрозненные статистические, бухгалтерские и административные массивы в чистую, сопоставимую и пригодную для моделирования информационную основу.

ETL-процесс организован в виде последовательных этапов (конвейеров), каждый из которых решает определённую задачу:

  • ETL-1: сбор данных из муниципальных, региональных, федеральных и международных источников, перекодировка, устранение ошибок, нормализация и формирование единой витрины;
  • ETL-2: выполнение расчётных моделей — демографии, экономики, межотраслевых связей и других — на основе унифицированных данных;
  • ETL-3: расчёт целевых показателей, индексов, матриц чувствительности, дефицитов, профицитов и производных индикаторов;
  • ETL-4: подготовка агрегированных паспортов решений, генерация сценарных профилей, расчет устойчивости и привязка к целям программ.

Каждый этап автоматизирован, прозрачен и воспроизводим. Данные проходят через этапы валидации, логического контроля и версионирования. Источники сохраняются, а ключевые поля фиксируются в структуре, что позволяет не только использовать результат, но и объяснить его происхождение.

ETL-конвейер легко расширяется под новые задачи: цифровая модель ТЭК, составление и прогнозирование топливно-энергетических балансов (ТЭБ), модели расчётов для Минсельхоза, интеграция с задачами Росфинмониторинга, экологических служб или новых федеральных показателей. Новая задача формируется в виде отдельного модуля или ветки внутри существующего конвейера, не нарушая работу базовых блоков и сохраняя устойчивость всей платформы.

Архитектура ETL-блоков построена с прицелом на масштабируемость — новые источники, регионы, форматы и отчёты могут быть подключены без перестройки логики. Этот функционал является основой для всех расчётов, моделей и визуализации в ЦДГ, формируя “цифровый фундамент” всей системы.