WARP.D Lakehouse

Хранилище данных, которое не превращается в болото

Архитектура, где сырьё неприкосновенно, а витрины переделываемы. Schema evolution из коробки. SCD из коробки. Без vendor lock-in.

Почему большинство хранилищ не работают

За 40 лет в отрасли сменилось несколько концепций: 3NF по Инмону, звезда Кимболла, Data Vault 2.0, Data Lake. Каждая следующая решала проблемы предыдущей, но все они упирались в две вещи: schema evolution (что делать, когда в источнике меняется структура) и сопровождение (без него любое хранилище умирает за год-два).

В итоге - кладбище «мёртвых» хранилищ, которые когда-то построили, а теперь никто не помнит как они работают. Цифры не сходятся. Аналитики тратят 80% времени на подготовку данных, и только 20% - на анализ.

Наш ответ: трёхслойная архитектура

Сырьё неприкосновенно. Всё остальное - переделываемо. Каждый слой имеет одну роль, и источник истины всегда один - S3.

Слой 1 - Raw
S3 + Apache Iceberg

Источник истины. Сырые данные из всех систем, идемпотентно пополняются через коннекторы с поддержкой schema evolution. Хранятся вечно. Не редактируются.

Слой 2 - Stage
Trino

Трансформации прямо в S3. Суперширокие плоские таблицы фактов - денормализованные, с контекстом на момент транзакции. Без отдельных dim-таблиц. При изменении правил - пересобираются из сырья.

Слой 3 - Mart
ClickHouse

Disposable OLAP-индекс для BI. Копия Stage-таблиц, обновляется через CDC. Классические боли ClickHouse (шардирование, мутации, consistency) перестают быть болями хранилища - его можно перезалить в любой момент.

Поток данных: Источники → Debezium/SeaTunnel (CDC) → S3/Iceberg (Raw) → Trino (Stage) → ClickHouse (Mart) → BI (Superset / Power BI / Metabase)

Что это даёт

SCD Type 2 из коробки

Гранулярность факта - строка транзакции с денормализованным контекстом на момент события. Была «Канцелярия» - так и останется в фактах 2023 года, даже если в 2024 группу переименовали в «Офис». Отдельная dim-таблица для актуальной группировки подключается только если надо «посмотреть историю под сегодняшними глазами».

Schema evolution автоматически

Новое поле в источнике → коннектор видит изменение схемы → Iceberg добавляет колонку → Trino и ClickHouse подхватывают. Без ручных миграций, без простоев, без «переделки DWH на следующий квартал».

Витрины - disposable

Нужно пересчитать витрину под новые правила? Удалили в ClickHouse - перезалили из Stage. Никакого «страшно трогать, вдруг данные потеряем». Потерять нельзя - всё живёт в Iceberg.

Минимальный CDC-стек

Debezium и SeaTunnel для большинства источников. Обновляется только реально изменившееся - не «переливкой всего периода». История изменений доступна построчно на уровне Iceberg.

Чего это не делает - и почему

Не для real-time

Если вам нужно табло с задержкой меньше минуты - это задача другой архитектуры: Kafka + ksqlDB / Flink прямо в дашборд. Примеры: табло вылета аэропорта, операционные продажи «здесь и сейчас», биржевые сводки.

См. услугу Интеграционная платформа на Kafka.

Не для маленьких компаний

Если у вас 2-3 системы (1С, CRM), и нативной отчётности этих систем достаточно - отдельное хранилище вам не нужно. Это честно. Стоимость развёртывания и сопровождения не окупится. Приходите, когда у бизнеса появятся вопросы, на которые нативные отчёты не отвечают.

Как начинаем

01
Discovery

Интервью с бизнесом сверху вниз: задачи топ-менеджмента, финансов, бухгалтерии, продаж. Инвентаризация источников. Концепт-система. Оценка трудозатрат. Итог - документ на 15-25 страниц и смета.

150 000 - 300 000 ₽ · 2-3 недели
02
Итеративная реализация

Не waterfall. Короткие циклы 2-3 недели, каждый заканчивается рабочей частью системы и демо. Клиент видит прогресс, а не отчёты о прогрессе. Изменения требований интегрируются по ходу.

По плану из discovery
03
Сопровождение

Обязательная часть. Lakehouse - это 5+ компонентов, каждый требует внимания. Без сопровождения хранилище умрёт за несколько месяцев. Минимальный контракт - 6 месяцев.

От запуска системы
Про discovery. Стоимость discovery засчитывается в реализацию, если продолжаете с нами. Если нет - документ и концепт-система остаются вашей собственностью и могут использоваться для поиска другого подрядчика.

Почему сопровождение обязательно

За 30 лет в отрасли мы видели десятки хранилищ, которые построили - и забыли. Через год они превращались в «мёртвый груз»: данные устарели, никто не помнит как подключить новый источник, аналитики обходят стороной.

С lakehouse-архитектурой это критично особенно: Trino, Iceberg, Nessie, S3, ClickHouse - пять разных компонентов, каждый требует мониторинга, обновлений, тонкой настройки. Без DBA-уровня сопровождения это ломается быстро.

Поэтому мы не строим хранилища без последующего сопровождения. Это наша принципиальная позиция - защита клиента от бессмысленных инвестиций.

Сопровождение - отдельная услуга. См. Managed DBA и сопровождение платформ.

Сценарии и стоимость

Небольшое корпоративное хранилище
2-3 источника
от 1 500 000 ₽
1-2 месяца

Полный трёхслойный стек в минимальной конфигурации. 2-3 ключевых источника, 1-2 витрины под конкретные бизнес-процессы, подключение BI. Подходит для старта data-платформы с возможностью расширения.

DWH + Консолидированная отчётность для холдинга
5-15 источников
от 5 000 000 ₽
4-6 месяцев

Корпоративная аналитическая среда для среднего и крупного бизнеса. Discovery с каждым подразделением, интеграция разнородных источников, несколько витрин под разные бизнес-процессы, CDC для критичных таблиц.

Миграция legacy DWH на открытый стек
из Oracle / MS SQL / Teradata / Snowflake
от 8 000 000 ₽
5-7 месяцев

Перевод существующего хранилища на открытый стек без vendor lock-in. Маппинг и перенос моделей, миграция исторических данных, параллельная работа старой и новой систем, передача команде клиента.

Корпоративная аналитическая платформа
15+ источников, ML/AI готовность
по запросу
по запросу

Enterprise-масштаб: много источников, несколько уровней агрегации, интеграция с ML-пайплайнами, многокомандная работа, полноценный governance. Индивидуальная архитектура и план под задачи клиента.

Цены ориентировочные и уточняются после discovery. Стоимость сопровождения рассчитывается отдельно - см. Managed DBA.

Технологический стек

Apache IcebergTrinoClickHouseS3 / MinIONessieDebeziumSeaTunnelApache AirflowdbtApache SupersetPower BIMetabasePostgreSQLMS SQL Server

Конкретный стек подбирается под задачу на этапе discovery. Методологии моделирования (Kimball, Data Vault) в нашей архитектуре являются инструментом, а не центральной идеей.

Не знаете, что именно вам нужно?

Расскажите о задаче - мы предложим подходящий формат.

Связаться