Александр
Азаров

генеральный директор компании WaveAccess
© ComNews
21.11.2022

Согласно отчету исследовательской компании IDC за 2021 год, при разработке систем на базе искусственного интеллекта (Artificial Intelligence, AI) и машинного обучения (Machine Learning, ML) компании тратят большую часть времени на обработку данных, а времени на создание, обучение и развертывание AI/ML-моделей бизнесу уже не хватает. В результате это препятствует успешному завершению проекта. Эту проблему в том числе призвана решать концепция MLOps. Александр Азаров, генеральный директор компании WaveAccess, расскажет о преимуществах и функциональности этого подхода, а также об отраслях, в которых MLOps показывает наибольшую эффективность.

Что собой представляет MLOps

Каждая ML-модель со временем неизбежно теряет точность, потому что данные, на которых она обучена, устаревают и перестают отражать рыночную ситуацию. В результате бизнес получает неверные аналитические выводы, что мешает должным образом реагировать на изменения. Чтобы избежать этого, необходимо регулярно собирать новые данные, обновлять модель, повторно ее развертывать и интегрировать с инфраструктурой. Проблема усугубляется, если компании требуется поддерживать несколько таких моделей. Именно MLOps-подход помогает оптимизировать и автоматизировать обслуживание AI/ML-инфраструктуры, экономя ресурсы на ее поддержание.

MLOps - это набор инструментов и практик для непрерывного совершенствования моделей машинного обучения. В рамках этой концепции регулярно генерируемые пользователями данные автоматически применяются для дообучения имеющихся моделей. В основе подхода лежат принципы DevOps - методики выстраивания бизнес-процесса непрерывной поставки решения конечному потребителю, которая предполагает сочетание разработки, запуска и эксплуатации программного обеспечения. Особенность, характерная для обеих концепций, - непрерывность процессов, а именно - сокращение ожидания между операциями за счет автоматизации и агрегации множества потоков данных.

MLOps автоматизирует ручные процессы во время сбора данных, обучения и построения моделей. Благодаря этому специалисты не тратят много времени на повторяющиеся действия для поддержания актуальности ML-модели, а быстро приступают к внедрению машинного обучения в бизнес-процессы. Это помогает экономить усилия рабочей команды и дает возможность сконцентрироваться на качестве модели.

Затраты на внедрение MLOps рассчитываются для каждого бизнеса индивидуально. Если случай стандартный, то можно воспользоваться специальными решениями, которые упростят организацию и этим снизят стоимость. Но для высоконагруженных систем внедрение подобных инструментов (при условии соблюдения всех правил) может потребовать тысяч часов рабочего времени.

Проект по внедрению и применению MLOps в среднем окупается за 10 циклов обновления моделей и данных. Но сроки сильно зависят от сложности моделей, инфраструктуры и данных.

Одно из обязательных условий при реализации концепции MLOps - это работа гибридных команд. В реализации таких проектов задействованы дата-инженеры (Data Engineers), специалисты по работе с данными (Data Scientists), ML-инженеры, ML-архитекторы, DevOps-инженеры, а также эксперты в области искусственного интеллекта. Предпочтительно, чтобы все участники проекта одинаково хорошо владели компетенциями на стыке Big Data, Data Science и DevOps. Однако такие кадры - редкость на рынке. Насколько сильно будут разграничены роли у специалистов, зависит от размера компании и масштабов задачи.

Согласно отчету Deloitte, к 2025 году объем мирового рынка MLOps вырастет почти до $4 млрд.

Какие задачи решает MLOps

Автоматизация жизненного цикла ML-моделей. В процессе реализации MLOps-концепции DS-команда (Data Scientists, аналитики данных) разрабатывает конвейер (pipeline), который представляет собой отдельный внутренний программный продукт. С его помощью модели машинного обучения создаются в автоматическом режиме на основе новой информации. На этом этапе происходит валидация данных, их предварительная обработка, обучение модели, а также проверка эффективности ее работы. Таким образом обеспечивается автоматический контроль всего жизненного цикла моделей машинного обучения.

Непрерывность обновления ПО. Практика CI/CD (continuous integration/continuous deployment) - фундаментальная рекомендация в рамках DevOps - обеспечивает непрерывную интеграцию и развертывание обновлений ПО с определенной периодичностью. За счет этого процесс переобучения ML-модели становится автоматическим - перезапуск ML-конвейера осуществляется каждый раз при обновлении кода или изменениях в данных, что запускает новые процессы сборки и тестирования.

Регулярное переобучение и дообучение модели. При реализации MLOps-концепции происходит непрерывное обучение модели без участия человека. Оно позволяет обновлять алгоритм при первых признаках устаревания модели или изменениях внешней среды. Потребность в автоматизации этого процесса связана с тем, что в некоторых областях информация актуализируется постоянно. Примером могут служить рост средней стоимости недвижимости на рынке или изменение среднего рейтинга фильмов в конкретной категории.

При этом важно понимать, что такая автоматизация не применима к случаям, когда появляются новые признаки в данных или меняется их формат. В таких случаях DS-команде приходится полностью обновлять конвейеры машинного обучения.

Масштабирование ML-приложений. С ростом используемой информации и увеличением количества управляемых ML-моделей каждая система должна продолжать эффективно функционировать и поддерживать прежний уровень производительности. С помощью методики MLOps процесс масштабирования осуществляется с минимальным вмешательством человека. При этом рост объема данных улучшает прогностические возможности ML-моделей.

Контроль производительности модели. Специалисты используют набор инструментов для управления эффективностью ML-моделей, среди которых логирование, аудит и снимки состояния пайплайна. Они помогают контролировать функционирование конвейера машинного обучения, отслеживать работу модели и сбор аналитики при внедрении в бизнес-процессы. Это дает возможность своевременно получать сведения для устранения неисправностей и точной настройки производительности модели.

Где MLOps особенно актуален

MLOps-концепция наиболее востребована среди компаний из динамично развивающихся отраслей, которые генерируют множество постоянно меняющихся данных. Среди таких индустрий в том числе - розничная торговля и e-commerce, здравоохранение и страхование. Коротко расскажем, почему автоматизация обслуживания ML-инфраструктуры особенно важна для этих сфер.

Ретейл и e-commerce. Ретейлеры обрабатывают большое количество данных, касающихся поведения, предпочтений и интересов покупателей, покупательского трафика, рыночных трендов и других факторов. В результате бизнес в частности получает возможность прогнозировать спрос, управлять клиентским опытом, оптимизировать складскую и транспортную логистику.

Здравоохранение. В области здравоохранения ML используется в том числе для анализа данных о пациентах и результатов медицинских исследований. Например, нейронные сети обучаются на основе большого количества изображений, получаемых с помощью рентгена, УЗИ, МРТ, КТ и других исследований. В дальнейшем ML-модель распознает и сегментирует типы заболеваний, признаки которых были уже изучены на снимках ранее. Таким образом, применение машинного обучения помогает снизить риски летальных исходов за счет ранней диагностики и правильного выбора лечения. Очевидно, что в данном случае критически важно иметь возможность быстро и эффективно адаптировать используемые ML-модели.

Страхование. Страховые службы анализируют множество переменных при подсчете возможных рисков, потенциальных расходов и доходов. Технология машинного обучения помогает прогнозировать риск дефолта клиента, предсказывать затраты по страховому случаю, автоматизировать согласование направлений на лечение, персонифицировать предложения и повышать качество сервиса.

Концепция MLOps направлена на ускоренную реализацию проектов по искусственному интеллекту и машинному обучению. Этот подход позволяет управлять жизненным циклом AI/ML-моделей. MLOps обеспечивает бесшовную интеграцию обучения моделей и интеграцию уже обученных моделей в программные продукты. Благодаря такой практике бизнес получает наиболее актуальную информацию о пользователях и состоянии рынка, что дает возможность принимать эффективные управленческие решения.