"Лига Cтавок" совместно с GlowByte построила аналитическое хранилище данных в Yandex Cloud
"Лига Ставок" совместно с ИТ-партнером GlowByte разработала платформу для решения задач аналитики, отчетности, математического моделирования и бизнес-планирования. Команда проекта построила корпоративное хранилище данных размером 35 Тб, которое работает круглосуточно и стабильно обеспечивает бизнес необходимыми расчетами.
С помощью новых инструментов удалось увеличить скорость доступа к данным, обеспечить автоматический контроль их качества и при этом оптимизировать ресурсы на поддержку инфраструктуры. Полный цикл обновления всех слоёв хранилища для критичных таблиц занимает менее часа, а генерация витрины "Ставки и Операции" осуществляется раз в 2 часа круглые сутки. Благодаря новому решению стабильность работы DWH повысилась с 20% в 2021 г. до 99,9% в 2025 г.
Старое хранилище было построено на MS SQL, при этом какая-либо документация по нему отсутствовала, вследствие чего не было понимания, на основании каких критериев оно было реализовано. Из-за нехватки места и вычислительных мощностей система не позволяла решать ключевые задачи. В частности, не было возможности рассчитывать целевые витрины на требуемом частом регламенте, разрабатывать и подключать новый функционал.
Данные отличались низким качеством: не было витрин данных, единой архитектуры, модулей качества, актуальности и мониторинга данных. В то же время из-за функционировавшего параллельно кубового хранилища информация зачастую дублировалась, а из-за отсутствия единого каталога витрин сотрудники компании не знали, какие данные в целом есть в DWH, где они находятся и как связаны между собой.
Внутри команд не был выстроен процесс планирования, отсутствовали регламенты и требования на разработку (Code review, Code Style и пр.).
Отсутствие строгой модели сырого, детального слоя и слоя витрин, а также единых правил и подходов к разработке новых опций увеличивало риск появления ошибок в разработке и "узких мест", а также разрастания неоптимального функционала.
Проведя глубокий анализ инфраструктуры и работы прежнего решения, были определены ключевые направления для цифровой трансформации бизнеса: человеческие ресурсы (расширение команд, обучение, консалтинг), процессы (проведение аудита, разработка документации, налаживание внутренней и внешней коммуникации), инфраструктура и архитектура (от решения строить новое хранилище данных до выбора вендора, партнера-интегратора, разработки архитектуры и построения концепт-модели с последующим стартом разработки целевой платформы).
Новое хранилище развернуто в Yandex Cloud и построено преимущественно на открытых технологиях: в качестве СУБД используется массивно-параллельная система Greenplum, для управления механизмами которой был выбран сервис Yandex Managed Service for Greenplum, оркестрация данных осуществляется с помощью Apache Airflow. Модель детального слоя и витрин реализована на Data Vault 2.0. Трансформацию данных на всех слоях хранилища обеспечивает универсальный самописный фреймворк SSF (self-service metadata based framework), написанный на pgPL/SQL и Python.
SSF позволяет быстро подключать новые интеграции, внося изменения только в метаданные, с высокой долей автоматики использовать новый функционал в детальном слое и слое витрин. Кроме того, он содержит модуль реконсиляции сырого слоя, а также контроля качества данных в детальном слое и слое витрин и обеспечивает автоматическое обновление дерева процессов в оркестраторе.
Для автоматизации процесса сверки данных всех слоев DWH был специально разработан модуль качества данных (Data Quality, DQ).
Архитектура хранилища позволяет выводить функционал на любой регламент и гарантирует отсутствие потери данных при инкрементальной загрузке. При этом реализованное решение удобно поддерживать благодаря использованию управляемых сервисов.
"В основе нашего с "Лигой Ставок" решения лежит гибкий и мощный инструмент Greenplum, надежность работы которого подкреплена сервисами Yandex, а также специальными самописными решениями от GlowByte. В рамках проекта для эффективности работы платформы мы реализовали два инструмента – фреймворк SSF и модуль сверки DQ. Первое – SSF – позволяет существенно ускорить разработку ETL/ELT-пайплайнов всех слоёв DWH, а модуль сверки – автоматизировать процесс сверки данных всех слоёв хранилища. Благодаря проекту была решена стратегическая задача по созданию целевой аналитической платформы, которая открывает возможности для реализации новых инициатив и извлечения дополнительной прибыли из данных", - прокомментировал Владимир Шакялис, архитектор GlowByte.
"Новая платформа качественно улучшила процессы построения аналитики, сбора информации из разных источников и систем, сократив сроки подготовки отчетов и повысив точность результатов. Дата-сайентисты получили надежный источник данных для построения моделей, а бизнес-аналитики – инструменты для предиктивного анализа данных и надежный источник для построения BI-отчетности, благодаря которому можно с большей уверенностью выстраивать долгосрочную стратегию развития. При этом рассчитанные метрики удобно выгружать во вешние системы", - поделился Дмитрий Дорофеев, руководитель отдела хранилища данных "Лиги Ставок".


