Хранилище данных, которое не превращается в болото
Архитектура, где сырьё неприкосновенно, а витрины переделываемы. Schema evolution из коробки. SCD из коробки. Без vendor lock-in.
Почему большинство хранилищ не работают
За 40 лет в отрасли сменилось несколько концепций: 3NF по Инмону, звезда Кимболла, Data Vault 2.0, Data Lake. Каждая следующая решала проблемы предыдущей, но все они упирались в две вещи: schema evolution (что делать, когда в источнике меняется структура) и сопровождение (без него любое хранилище умирает за год-два).
В итоге - кладбище «мёртвых» хранилищ, которые когда-то построили, а теперь никто не помнит как они работают. Цифры не сходятся. Аналитики тратят 80% времени на подготовку данных, и только 20% - на анализ.
Наш ответ: трёхслойная архитектура
Сырьё неприкосновенно. Всё остальное - переделываемо. Каждый слой имеет одну роль, и источник истины всегда один - S3.
Источник истины. Сырые данные из всех систем, идемпотентно пополняются через коннекторы с поддержкой schema evolution. Хранятся вечно. Не редактируются.
Трансформации прямо в S3. Суперширокие плоские таблицы фактов - денормализованные, с контекстом на момент транзакции. Без отдельных dim-таблиц. При изменении правил - пересобираются из сырья.
Disposable OLAP-индекс для BI. Копия Stage-таблиц, обновляется через CDC. Классические боли ClickHouse (шардирование, мутации, consistency) перестают быть болями хранилища - его можно перезалить в любой момент.
Что это даёт
Гранулярность факта - строка транзакции с денормализованным контекстом на момент события. Была «Канцелярия» - так и останется в фактах 2023 года, даже если в 2024 группу переименовали в «Офис». Отдельная dim-таблица для актуальной группировки подключается только если надо «посмотреть историю под сегодняшними глазами».
Новое поле в источнике → коннектор видит изменение схемы → Iceberg добавляет колонку → Trino и ClickHouse подхватывают. Без ручных миграций, без простоев, без «переделки DWH на следующий квартал».
Нужно пересчитать витрину под новые правила? Удалили в ClickHouse - перезалили из Stage. Никакого «страшно трогать, вдруг данные потеряем». Потерять нельзя - всё живёт в Iceberg.
Debezium и SeaTunnel для большинства источников. Обновляется только реально изменившееся - не «переливкой всего периода». История изменений доступна построчно на уровне Iceberg.
Чего это не делает - и почему
Если вам нужно табло с задержкой меньше минуты - это задача другой архитектуры: Kafka + ksqlDB / Flink прямо в дашборд. Примеры: табло вылета аэропорта, операционные продажи «здесь и сейчас», биржевые сводки.
См. услугу Интеграционная платформа на Kafka.
Если у вас 2-3 системы (1С, CRM), и нативной отчётности этих систем достаточно - отдельное хранилище вам не нужно. Это честно. Стоимость развёртывания и сопровождения не окупится. Приходите, когда у бизнеса появятся вопросы, на которые нативные отчёты не отвечают.
Как начинаем
Интервью с бизнесом сверху вниз: задачи топ-менеджмента, финансов, бухгалтерии, продаж. Инвентаризация источников. Концепт-система. Оценка трудозатрат. Итог - документ на 15-25 страниц и смета.
150 000 - 300 000 ₽ · 2-3 неделиНе waterfall. Короткие циклы 2-3 недели, каждый заканчивается рабочей частью системы и демо. Клиент видит прогресс, а не отчёты о прогрессе. Изменения требований интегрируются по ходу.
По плану из discoveryОбязательная часть. Lakehouse - это 5+ компонентов, каждый требует внимания. Без сопровождения хранилище умрёт за несколько месяцев. Минимальный контракт - 6 месяцев.
От запуска системыПочему сопровождение обязательно
За 30 лет в отрасли мы видели десятки хранилищ, которые построили - и забыли. Через год они превращались в «мёртвый груз»: данные устарели, никто не помнит как подключить новый источник, аналитики обходят стороной.
С lakehouse-архитектурой это критично особенно: Trino, Iceberg, Nessie, S3, ClickHouse - пять разных компонентов, каждый требует мониторинга, обновлений, тонкой настройки. Без DBA-уровня сопровождения это ломается быстро.
Поэтому мы не строим хранилища без последующего сопровождения. Это наша принципиальная позиция - защита клиента от бессмысленных инвестиций.
Сопровождение - отдельная услуга. См. Managed DBA и сопровождение платформ.
Сценарии и стоимость
Полный трёхслойный стек в минимальной конфигурации. 2-3 ключевых источника, 1-2 витрины под конкретные бизнес-процессы, подключение BI. Подходит для старта data-платформы с возможностью расширения.
Корпоративная аналитическая среда для среднего и крупного бизнеса. Discovery с каждым подразделением, интеграция разнородных источников, несколько витрин под разные бизнес-процессы, CDC для критичных таблиц.
Перевод существующего хранилища на открытый стек без vendor lock-in. Маппинг и перенос моделей, миграция исторических данных, параллельная работа старой и новой систем, передача команде клиента.
Enterprise-масштаб: много источников, несколько уровней агрегации, интеграция с ML-пайплайнами, многокомандная работа, полноценный governance. Индивидуальная архитектура и план под задачи клиента.
Технологический стек
Конкретный стек подбирается под задачу на этапе discovery. Методологии моделирования (Kimball, Data Vault) в нашей архитектуре являются инструментом, а не центральной идеей.
Расскажите о задаче - мы предложим подходящий формат.