"Российские ученые сформулировали новый вызов в развитии рекомендательных систем
Анализ работ, опубликованных за три года на конференции RecSys, показал - только 10% объясняют смысл фильтрации датасета, ни одна не объясняет выбранный порог.
Ученые из Института AIRI провели исследование и выявили отсутствие единой методологии при определении порогов "холодного старта". Понимать, сколько взаимодействий должно быть у объекта, чтобы считать его "холодным" или "теплым" особенно важно при проведении научных работ в этой сфере, а также для корректной работы крупных онлайн-сервисов.
Эффект "холодного старта" — ситуация, когда в рекомендательной системе появляется пользователь или товар, для которого в системе еще слишком мало информации о взаимодействиях. Это делает прогнозирование затруднительным и ненадежным. Такие объекты имеет смысл исключать из данных заранее по соответствующему порогу. Сегодня во многих статьях выбор этого порога делается "на глаз", стандартом считается 5-core фильтрация. То есть не менее 5 взаимодействий на пользователя и на товар. Однако изучение статей, опубликованных за последние три года на конференции RecSys, показало: лишь 10% авторов обосновывают необходимость фильтрации, при этом никто не поясняет, почему выбран конкретный порог.
Тем временем ошибочный порог может дорого обойтись. Если он слишком низкий, то в систему попадает много "шума", который ухудшает качество рекомендаций. Если слишком высокий — алгоритмы теряют важные взаимосвязи, поскольку значительная часть ценных данных просто отсеивается, и метрики не показывают оптимальных значений.
В ходе исследования ученые сделали первые шаги к автоматическому определению оптимального порога "холодного старта". При определении порога для пользователей специалисты анализировали уже обученную модель и выясняли, при какой длине истории запросов резко улучшается качество рекомендаций. Для товаров - в процессе обучения моделей использовались разные подвыборки данных, в которых изменялась частота появления товара в пользовательских взаимодействиях. Это помогло выявить, при каком минимальном числе взаимодействий с товаром наблюдается скачок метрик. Именно он говорит о том, что у алгоритма накопилось достаточно информации о пользователе или товаре.
Специалисты протестировали популярные рекомендательные алгоритмы, включая нейросетевые модели — SASRec, PureSVD, ItemKNN, EASER — на четырех репрезентативных датасетах из разных сфер. В них вошли: рейтинги фильмов (movielens-1m), отзывы о косметике (Amazon Beauty), искусство (Behance) и оценки пива (BeerAdvocate). Такой выбор датасетов позволил исследователям детально проанализировать предлагаемый подход и убедиться, что он работает независимо от выбранной архитектуры рекомендательной системы. Исследователи также выяснили, что оптимальный порог для "размораживания" отличается не только в зависимости от задачи, но и от выбора модели. Например, последовательные модели SASRec требуют в три раза больше взаимодействий для одного и того же датасета, чем классические алгоритмы.
Таким образом, при проектировании и тестировании рекомендательных систем важно четко обосновывать выбор порогов фильтрации, и проводить обучение и тест на данных, отфильтрованных с использованием одного и того же параметра для сравниваемых моделей. Это единственная гарантия честной оценки качества работы алгоритма и воспроизводимости результатов. "Мы показали, что произвольный и нефиксированный выбор порога "холодного старта" может радикально изменить выводы исследования — прозрачная методология необходима для корректного обучения и сравнения рекомендательных алгоритмов", — подчеркнул Никита Сухоруков, научный сотрудник группы "Технологии персонализации" Института AIRI.
