От экспериментов к результату: как "Яндекс" внедрил ИИ в процессы тестирования

Миронов
руководитель службы общей инфраструктуры Плюс Фантех Яндекса
Искусственный интеллект обещает революцию в разработке, но между ожиданиями и реальной пользой часто лежит пропасть. В "Яндексе" прошли путь от первых экспериментов до работающих инструментов на базе LLM для отдела QA, где трудится более 1000 специалистов (Quality Assurance, тестирования качества). Владислав Миронов, руководитель службы общей инфраструктуры Плюс Фантех Яндекса, рассказывает о результатах, организационных решениях и о том, почему успешное внедрение искусственного интеллекта требует не только технологий, но и серьезных управленческих компромиссов.
От энтузиазма к хаосу
Область QA с самого начала выглядела подходящей для оптимизации с LLM, поскольку у задач понятная структура и шаблоны. Вначале мы изучили, в каких направлениях генеративные нейросети могут помочь тестировщикам. Для этого провели эксперименты в нескольких департаментах. В итоге наибольшую потенциальную выгоду от внедрения нейросетей показали следующие:
-
генерация чек-листов и тест-кейсов;
-
помощь в написании автотестов;
-
автоматизация ручного тестирования.
Энтузиазм в командах был огромный. За пару недель появились первые прототипы, которые работали - генерировали неплохие чек-листы, помогали писать простые автотесты.
Но дальше начались проблемы.
Во-первых, качество резко падало при выходе за узкие сценарии. ИИ - отличный персональный помощник для одного человека, но создать инструмент, который одинаково хорошо работает для тысячи специалистов в разных департаментах, - совсем другая история.
Во-вторых, стихийно возник "зоопарк" решений. Команды, недовольные качеством чужих прототипов, начали создавать свои инструменты. С современными ИИ-технологиями это делается за пару дней, и остановить расползание, казалось, было невозможно.
Проблема была не в самом разнообразии, а в последствиях: каждый инструмент нужно поддерживать, процессы постоянно меняются, отсутствуют общие метрики качества. А так называемый налог на поддержку быстро съедает всю выгоду от автоматизации.
Решение: разделить зоны ответственности
Мы могли бы пойти административным путем - выбрать одно "правильное" решение и запретить остальные. Формально это могло сработать, но на деле полностью убило бы инициативу.
Вместо этого мы выбрали компромисс: разделили зоны ответственности между центральной и локальными командами.
Центральная команда отвечает за инфраструктуру и интеграции с корпоративными системами, единые стандарты качества и метрики, а также базовые технологии, которые дорого разрабатывать каждой команде отдельно.
Локальным командам остается больше творчества: они могут свободно экспериментировать с подходами и настройками, адаптировать решения под свою специфику, внедрять лучшие практики.
Но чтобы централизация не выглядела как "указание сверху", платформа должна давать командам реальную выгоду - тогда они сами захотят подключиться. Эта выгода описывается двумя словами: интеграции и базовое качество.
Три направления внедрения
1. Генерация тест-кейсов: 200+ чек-листов ежедневно
Создание базового генератора тест-кейсов может показаться простой задачей: нужно подключиться к системе управления задачами и репозиторию кода, забрать описание задачи, передать в ИИ - остается получить готовый чек-лист.
Такой прототип действительно можно собрать за несколько дней. И он работает - MVP-генерации чек-листов хватило, чтобы им начали пользоваться несколько десятков команд (ежедневно генерируется более 200 чек-листов).
Но дальше начинаются задачи, которые требуют заметных усилий аналитиков и разработки.
-
Интеграции с корпоративными системами. Нужны единые коннекторы к трекеру задач, репозиториям кода, внутренней документации. Пока их нет, каждая команда делает свои интеграции - и это становится кошмаром поддержки.
-
Проверка результатов человеком. В систему управления тестированием пришлось добавить workflow "принять/отклонить" для каждого сгенерированного шага. Раньше система исходила из того, что инженер знает, что делает. С приходом ИИ это перестало работать - добавлять результаты без проверки нельзя. Да, это "съедает" часть выгоды, но дает единственно надежный сигнал о реальном качестве системы.
-
Контроль качества при обновлениях. Как убедиться, что новая версия ИИ-модели не сломает процессы? Мы создали систему автоматической проверки: одна модель оценивает результаты другой по набору критериев, сравнивая с эталонными тест-кейсами, написанными опытными специалистами. Это позволяет тестировать обновления до того, как они попадут в рабочие процессы.
Если прототип делается за недели, то внедрение этих трех компонентов занимает месяцы. Зато результат того стоит: экономия в среднем 50% времени на создание чек-листов и тест-кейсов, и качество остается под контролем.
2. Помощь в написании автотестов: +30% к скорости
Здесь все оказалось проще с технической стороны: базовый инструмент - ИИ-ассистент для кода (в "Яндексе" это Yandex Code Assistant). Сложные дополнительные инструменты командам почти не нужны.
Главная проблема оказалась в другом: как научить инженеров работать с ИИ так, чтобы они ускоряли, а не тормозили работу.
Первая гипотеза "достаточно выложить хорошие обучающие материалы" провалилась. Она работает только для энтузиастов, которых много, но не 100%. У большинства при высокой загрузке просто нет времени изучать туториалы.
Мы перешли к формату практических тренингов в малых группах: опытный тренер приходит к команде конкретного сервиса, работает на их реальной кодовой базе и помогает каждому начать применять ИИ-ассистента на практике.
Организовать это на масштабе крупной компании сложно, но эффект очевиден: около 60% сотрудников в командах активно используют ИИ после тренинга против 30% - без обучения. Скорость написания кода вырастает в среднем на 30%. На момент написания статьи мы обучили половину специалистов по тестированию в компании.
3. Автоматизация ручного тестирования: от 45% к 80% точности
Это самое сложное и потенциально самое ценное направление. Чтобы ИИ мог сам проходить тестовые сценарии в приложениях, нужны серьезные базовые технологии:
-
Системы компьютерного зрения, которые распознают элементы интерфейса на экране
-
Инструменты интеграции с браузером и мобильными приложениями
-
ИИ-агент, который понимает, что нужно делать, и способен это выполнить
Инструменты такого уровня с приемлемым качеством сложно найти даже у крупных ИИ-компаний - даже за деньги.
Над системами компьютерного зрения и инструментами интеграции работает центральная команда - это серьезная работа разработчиков машинного обучения и заметные инвестиции в вычислительные мощности. Локальные команды используют эти инструменты для создания ИИ-агентов под свои сценарии.
За основу мы взяли собственного ИИ-агента (того же, который с августа тестируется в "Яндекс Браузере") - планируем дообучать его под сценарии функционального тестирования в вебе и затем в мобильных приложениях.
Первичные замеры качества показали 45% точности выполнения тестовых сценариев. То есть агент правильно выполнил действия в 45 случаях из 100. Чтобы система реально приносила пользу, нужно минимум 80%.
Когда мы достигнем целевых показателей, сможем запускать большую часть проверок на новых версиях уже без участия людей. Разработчики также смогут проверять новые функции, не дожидаясь свободного тестировщика, - цикл обратной связи и доработки таким образом сокращается.
Для специалистов по тестированию это означает сокращение рутинных задач и больше времени на сложные задачи: анализ инцидентов, исследовательское тестирование, улучшение стратегии и метрик качества.
Чтобы дать им максимум свободы, мы создали открытый интерфейс в системе управления тестированием - можно выбрать любого из загруженных коллегами агентов и отслеживать их качество.
Что мы поняли
Искусственный интеллект - впечатляющая технология, которая действительно вызывает "вау"-эффект. Но при создании реальных инструментов обычно проходишь через две стадии:
-
"Я переверну индустрию за выходные!"
-
(Сразу за ней) "Это вообще не работает так, как мне надо!"
Работа над качеством, надежностью и масштабированием осталась такой же трудоемкой, как и раньше. ИИ открывает новые возможности, но требует не меньше системной работы, экспериментов и здравого скепсиса.
Мы только в начале пути, и многое еще предстоит осмыслить. Но направление стоит усилий - результаты говорят сами за себя.

