Саша Данилов, CEO и основатель Nodul (российский аналог n8n)
Саша
Данилов

CEO и основатель Nodul (российский аналог n8n)
© ComNews
19.02.2026

Российский рынок ИИ столкнулся с парадоксом: внедрение локальных языковых моделей не снижает, а повышает стоимость автоматизации. Из-за санкций и требований к защите данных компании выбирают "отечественные" LLM (Large Language Model) — дообученные версии зарубежных моделей, которые работают медленнее и стоят дороже

Автоматизация традиционно рассматривается как способ сокращения издержек и повышения эффективности. Однако в российском бизнес-контексте внедрение ИИ часто не приводит к снижению затрат. Напротив, стоимость эксплуатации таких систем может превышать расходы на человеческий труд.

По данным глобального исследования KPMG International и Университета Мельбурна (Trust, Attitudes and Use of Artificial Intelligence: A Global Study, 2025), 38,5% респондентов во всем мире уже используют технологии искусственного интеллекта в повседневной жизни. В России, согласно опросу "Левада-центра" (включен в реестр НКО-иноагентов) (Use of the Internet, Social Networks, Messengers, Artificial Intelligence and Other Online Services, март 2025 г.), регулярно используют ИИ 6% опрошенных, еще 11% — время от времени. Такой разрыв между миром и Россией отражает не столько технологическое отставание, сколько экономические и инфраструктурные особенности локального рынка.

В условиях санкций и ограничений на трансграничную передачу данных компании из РФ вынуждены работать с локальными моделями, где качество ниже, а стоимость эксплуатации выше. Парадокс в том, что ИИ, призванный оптимизировать процессы, в российских реалиях становится фактором роста затрат.

Иллюзия "российских" LLM

Под "отечественными" LLM чаще всего подразумеваются не модели, обученные с нуля, а дообученные версии открытых моделей мировых вендоров (например, LLaMA от Meta (признана экстремистской и запрещена в РФ), Qwen от Alibaba, Mistral и других). Российские корпорации — "Т-Банк", "Яндекс", МТС — берут open-source-базу и адаптируют ее под локальные данные и инфраструктуру.

Такая локализация решает ряд задач: модель лучше понимает язык и культурный контекст, справляется с бытовыми сценариями, работает в замкнутом периметре. Но назвать такие системы "российскими" можно лишь условно. В реальности это "клон" международной модели с поверхностной настройкой, а не самостоятельная архитектура.

По уровню качества такие решения заметно уступают лидерам типа OpenAI или Anthropic. Причина не только в объемах данных, но и в глубине обучения. Если крупные мировые LLM проходят полное обучение на миллионах GPU-часов, то локальные версии ограничиваются сравнительно коротким курсом на русскоязычных датасетах.

Такой подход объясняется тем, что обучение с нуля требует инвестиций в десятки, а то и сотни миллионов долларов, а также доступа к дефицитным графическим процессорам уровня H100. Для большинства российских игроков эти ресурсы недоступны.

Экономика LLM

Главная статья расходов при работе с большими языковыми моделями — инференс, то есть процесс генерации ответов. Именно на этом этапе потребляется основная часть вычислительных ресурсов.

В мире принято считать стоимость работы модели через цену за токен (минимальную единицу текста, которую обрабатывает нейросеть). У глобальных провайдеров цены разделены на входящие и исходящие токены: ввод стоит дешевле, чем генерация ответа. Например, за миллион входящих токенов можно заплатить около $1,25, тогда как за миллион исходящих — около $10. Это логично, так как длинный запрос не требует больших вычислений, а вот генерация текста — энергозатратна.

Российские провайдеры часто устанавливают одинаковую цену за вход и выход. При этом многие корпоративные сценарии, особенно у ИИ-агентов, характеризуются длинными промптами и короткими ответами. В таких случаях при одинаковой стоимости токенов расход возрастает многократно. В сочетании с изначально более высокой базовой ценой это делает использование заметно дороже.

ИИ упирается в железо

Ситуацию усугубляет стоимость инфраструктуры. Для обеспечения стабильной работы LLM нужны мощные графические процессоры (GPU) и серверы, способные обрабатывать десятки одновременных запросов с низкой задержкой. В российских условиях доступ к современным GPU ограничен, так как поставки осложнены санкциями, а закупка через посредников повышает цену.

Для компании, которая хочет обслуживать хотя бы 1000 одновременных пользователей, необходим сервер стоимостью порядка 55 млн руб. Для игроков вроде "Сбера" или "Яндекса", у которых тысячи клиентов, нужны дата-центры и крупные закупки "железа".

Даже при наличии оборудования себестоимость генерации напрямую зависит от загрузки GPU. Чтобы цена токена оставалась в разумных пределах, нужно поддерживать загрузку не менее 80–90%. Любое простаивание резко увеличивает цену, потому что расходы на электроэнергию и обслуживание оборудования остаются прежними. При относительно небольшом спросе на ИИ-агентов внутри страны достичь нужной загрузки почти невозможно.

Почему бизнесу приходится выбирать дорогой ИИ

Главные барьеры для российских компаний — риски передачи персональных данных за рубеж и ограничения, наложенные западными санкциями. Любой запрос к внешнему API, даже если в нем упомянуто имя или телефон пользователя, формально считается передачей персональных данных за границу. Это подпадает под действие закона № 152-ФЗ "О персональных данных" и может повлечь уголовную ответственность для компаний, особенно при масштабной клиентской базе.

Формально большинство западных LLM (OpenAI, Anthropic, Google Gemini) недоступны для российских юрлиц, однако технически их использование возможно через так называемые шлюзы — прокси-сервисы, которые перенаправляют запросы в обход санкционных ограничений. На практике такие схемы активно применяются в малом и среднем бизнесе, но они остаются юридически серой зоной.

Корпоративные заказчики, особенно из регулируемых отраслей, такие риски не принимают. Комплаенс-отдел просто не пропустит использование заблокированных API. Поэтому крупные игроки вынуждены разворачивать инфраструктуру внутри контура, через on-prem-решения, где все вычисления происходят на собственных серверах.

Выбор модели использования LLM сегодня напрямую зависит от масштаба компании и уровня допустимого риска:

  • Крупный бизнес выбирает on-prem. Данные остаются внутри корпоративного периметра, а безопасность и контроль важнее экономии. Такие компании готовы инвестировать в собственные кластеры, GPU-серверы, чтобы исключить трансграничную передачу данных.

  • Средний бизнес действует гибридно. На старте используют российские облака, а при росте нагрузки и ужесточении требований к комплаенсу постепенно переходят на внутренние серверы.

  • Малый бизнес чаще всего работает с глобальными облаками, несмотря на риски. Для них зарубежные модели дешевле, мощнее и требуют минимальных затрат на интеграцию.

Выводы

На фоне мировых тенденций, где ИИ снижает издержки, в России он пока остается дорогим и сложным инструментом автоматизации. Использование локальных облачных LLM часто обходится компаниям в разы дороже, чем работа с международными аналогами. Развертывание on-prem-решений обеспечивает контроль над данными и комплаенс, но требует крупных первоначальных инвестиций в оборудование и инфраструктуру. По сути, бизнес выбирает между двумя неидеальными сценариями: "в десять раз дороже, но в облаке" или "дорого и сложно, но внутри периметра".

Тем не менее для компаний с высокой стоимостью человеческого труда — юридических департаментов, контакт-центров или служб поддержки — использование ИИ остается оправданным. В этих сегментах непрерывная загрузка вычислительных мощностей (80–90%) снижает стоимость токена до управляемого уровня и обеспечивает окупаемость. В остальных случаях, при низкой загрузке, агент оказывается экономически неэффективен.