28.05.2020

Платформа Яндекс.Облако открывает доступ к новому сервису Yandex DataSphere для разработки машинного обучения. Сервис работает в режиме preview, доступ предоставляется по предварительной регистрации. Пользоваться Yandex DataSphere можно бесплатно.

Yandex DataSphere — это облачная среда для использования инструментов машинного обучения. Разработчикам предлагается привычный интерфейс Jupyter Notebook, одного из наиболее популярных инструментов ML-разработки. При этом возможности Jupyter Notebook адаптированы к работе в облаке и существенно расширены.

В закрытом тестировании Yandex DataSphere приняли участие 19 российских компаний, активно применяющих машинное обучение в бизнесе, и 31 индивидуальный разработчик. По мнению экспертов, новый сервис позволяет экономить до 70% ресурсов на вычисления с применением GPU.

Впервые в практике публичных облаков Yandex DatаSphere использует технологию бессерверных вычислений (serverless computing) при работе с машинным обучением. Это значит, что при редактировании и просмотре кода не задействуются вычислительные ресурсы CPU или GPU. Виртуальная машина нужного типа подключается только для непосредственных расчётов: обучение моделей, запуск, другие вычисления. При таком подходе клиент платит только за время реального использования вычислительных ресурсов. Редактирование и просмотр кода, случайный простой не выключенной ночью или на выходных виртуальной машины не тарифицируется.

Также впервые в мире в Yandex DataSphere реализовано бесшовное переключение между разными типами вычислительных ресурсов. В Yandex DatаSphere можно без остановки вычислений и с сохранением прогресса применять разные типы виртуальных машин: экономичные с CPU (обычные процессоры) и быстрые с GPU (графические ускорители). В большинстве облачных сред разработки машинного обучения запустить расчёты модели возможно только на машине одного типа. Если часть вычислений требует использования более дорогой машины с GPU, на ней будет вычисляться весь проект. В Yandex DatаSphere каждая часть (ячейка) кода может быть исполнена на машине нужного типа, при этом результаты предыдущих вычислений сохранятся. Для переключения на машину другого типа теперь не придётся запускать весь проект заново. Это ускоряет разработку, снижает затраты и повышает эффективность применения более дорогих вычислительных ресурсов.

Когда стадия preview завершится и сервис будет запущен в коммерческую эксплуатацию, в DataSphere станет доступна ещё одна уникальная функция, которой нет в других облаках, — сохранение версий расчётов моделей по трём измерениям: данные, код и состояние ноутбука. Функция упростит командную работу специалистов по данным, сделает ML-разработку более управляемым процессом для корпоративных пользователей. Также появится возможность проверить качество кода и получить рекомендации, как оптимально использовать вычислительные ресурсы.