© ComNews
15.12.2025

Алгоритм CatBoost, разработанный Яндексом, стал одним из самых популярных инструментов машинного обучения в фундаментальной и прикладной науке - от медицины до инженерии. Об этом свидетельствует отчет американского издания MarkTechPost по анализу 5 тыс. научных статей журнала Nature за 2025 г.

CatBoost - единственная российская технология, которая попала в глобальный отчет. Она оказалась в числе узкой группы неамериканских технологий, сумевших стать мировым научным стандартом. Всего в отчете таких инструментов пять: помимо CatBoost, это Scikit-learn (Франция), U-Net (Германия), GAN и RNN (Канада), AlphaFold (Великобритания). Остальные 90% технологий, которые попали в отчет, разработаны в США.

CatBoost применяется в каждой тридцатой научной работе и стоит в одном ряду с решениями от Google, Microsoft, Intel, Amazon и других крупных технологических компаний и научных институтов. Алгоритм Яндекса используют ученые в более чем 50 странах - это подтверждает, что российские технологии имеют мировое признание.

Среди стран лидером по числу упоминаний CatBoost в научных статьях журнала Nature стал Китай - на него пришлось 32% публикаций. Это лидерство можно объяснить тем, что в КНР активно развивается индустрия научных исследований на основе технологий машинного обучения. В частности, исследования там строятся на ансамблевых методах, в которых применяют несколько моделей для общего решения одной задачи, в том числе CatBoost. Также алгоритм пользуется заметной популярностью в Саудовской Аравии (19% статей) и Индии (18%).

В США алгоритм Яндекса конкурирует наравне с продуктами других крупных технологических компаний и используется ведущими научными центрами - например, учёными Гарвардского университета, Массачусетского технологического института, Стэнфордского университета. Среди всех научных статей в Nature за этот год, в которых упоминается CatBoost, 13% публикаций приходится на США. Для сравнения, примерно такие же доли статей приходятся на американские аналоги алгоритма Яндекса: XGBoost (15% публикаций, Вашингтонский университет), классический Gradient Boosting Model (12%, Стэнфордский университет) и LightGBM (10%, Microsoft).

CatBoost - это алгоритм машинного обучения, который Яндекс создал для решения задач Поиска, а сегодня применяет в самых разных сервисах - Погоде, Директе, Маркете, Музыке и других. Основная причина популярности CatBoost заключается в том, что большинство практических задач машинного обучения опираются на табличные данные, а алгоритм находит в таких таблицах сложные и неочевидные закономерности. Например, когда пользователь вводит запрос к Поиску, CatBoost обращается в большую таблицу, где строки - это варианты материалов для поисковой выдачи, а столбцы - тысячи характеристик: параметры и история запросов, регион пользователя, популярность сайтов, их актуальность и релевантность, а также комбинации признаков запроса и материалов. CatBoost точно ранжирует эти варианты, выбирая самые полезные. По такому же принципу алгоритм работает в других сервисах Яндекса. Так, параметры погодной модели - это столбцы с цифрами и категориями, по которым CatBoost рассчитывает прогноз, например вероятность дождя.

Главное преимущество алгоритма - он умеет корректно и эффективно работать с признаками разных категорий: например, с диагнозами пациентов, типами почвы или марками автомобилей. Обычно для анализа таких данных их нужно преобразовывать, а CatBoost понимает их сразу. Кроме того, алгоритм способен давать точные прогнозы без предварительной настройки - это экономит время и делает его универсальным инструментом. Поэтому его применяют не только в Яндексе, но и в глобальной науке, причём в самых разных сферах - от ранжирования страниц сайтов до диагностики заболеваний по анализам пациента.

Всего в отчет MarkTechPost попали 188 статей с упоминанием CatBoost Яндекса. Например, исследователи рассказывают в них о том, как алгоритм помог добиться значимых результатов в прогнозировании рецидивов рака печени и обнаружении рака молочной железы, в ранней диагностике болезни Альцгеймера, а также в прогнозировании преждевременных родов. Алгоритм широко применяется и в других прикладных науках - так, CatBoost показал один из лучших результатов в прогнозировании индекса качества воды, использовался в сравнительном анализе методов прогнозирования спроса на зарядку электромобилей, показал высокую эффективность в выявлении фальшивых аккаунтов в соцсетях.

Новости из связанных рубрик