© ComNews
02.04.2019

Группа "Тинькофф" построила собственный суперкомпьютер в рамках стратегии AI First и развития платформы для машинного обучения и искусственного интеллекта.

Суперкомпьютер "Колмогоров" предназначен для быстрого обучения моделей на больших массивах данных, накопленных "Тинькофф" за все годы существования компании (13 лет). Быстрые соединения между вычислительными узлами позволяют эффективнее использовать вычислительные ресурсы для распределенного обучения на огромных массивах данных.

"Колмогоров" позволит намного быстрее решать такие связанные с машинным обучением и искусственным интеллектом задачи, как распределенное обучение нейросетевых моделей для распознавания речи, синтеза речи и обработки естественного языка; обучение классических моделей machine learning для задач скоринга, привлечения и предиктивной аналитики.

Благодаря кластеру "Колмогоров" задачи по обучению нейросетей выполняются в сотни раз быстрее: например, для задачи по оптимизации исходящих звонков мы за сутки переобучили модель, предсказывающую вероятность продажи финансовых продуктов на всем объеме накопленных за 13 лет данных. Переобучение модели традиционными способами заняло бы, по расчетам компании, около 6 месяцев. Использование кластера позволяет бизнесу быстрее и эффективнее проверять гипотезы, улучшать сервисы и выводить новые продукты на рынок.

Суперкомпьютер "Колмогоров" имеет пиковую производительность 658,5 терафлопс при вычислениях с плавающей точкой двойной точности (FP64). Система состоит из 10 узлов, оснащенных передовыми вычислителями NVIDIA Tesla V100 со специализированными тензорными ядрами для ускорения задач искусственного интеллекта. Вычислительные узлы суперкомпьютера Тинькофф объединены современной высокоскоростной сетью 100 Гигабит с поддержкой технологии RoCE (RDMA over Converged Ethernet). Сочетание передовых технологий позволило кластеру достичь производительности 418,9 терафлопс в тесте Linpack, что обеспечило выход системы в лидеры рейтинга самых быстрых суперкомпьютеров страны.

По словам пресс-службы "Тинькофф", в "Колмогорове" установлены точно такие же ускорители, как и в самом быстром суперкомпьютере в мире Summit (OLCF-4). Кроме того, он является самым мощным суперкомпьютером в рейтинге по показателю производительности на узел, то есть каждый его сервер отличается высокой эффективностью (41,9 TFlop/s).

Кластер "Колмогоров" стал частью платформы "Тинькофф" для машинного обучения и искусственного интеллекта. Платформа включает в себя следующие элементы: инфраструктуру для сбора, хранения и обработки данных, их последующей разметки и извлечения признаков; инструменты для обучения моделей, перебора параметров и предсказания результатов; программные и графические интерфейсы для визуализации результатов и управления артефактами обучения; систему для автоматического развёртывания, мониторинга и менеджмента ресурсов.

"Объем наших задач, связанных с машинным обучением и искусственным интеллектом, растет. Эта платформа создана в рамках стратегии AI First, при которой все продукты, выпускаемые нами на рынок, содержат встроенный искусственный интеллект. Цель данной платформы - развивать культуру работы с данными, снизить порог входа в эту область для наших команд и сделать машинное обучение доступным для каждого аналитика и разработчика "Тинькофф". Мы не планировали строить систему с приставкой "супер": в целом, это совсем небольшая часть нашей инфраструктуры, но полученные характеристики позволили кластеру войти в топ суперкомпьютеров России. Теперь мы предоставляем нашим командам доступ к одному из самых мощных суперкомпьютеров в России, что позволит нам значительно быстрее тестировать гипотезы, принимать решения и выводить продукты на рынок", — прокомментировал директор по информационным технологиям группы "Тинькофф" Вячеслав Цыганов.