© ComNews
01.11.2025

Ученые Института AIRI представили инструмент для оценки того, насколько хорошо нейросетевые языковые модели справляются с реальными задачами химиков. В частности, теми, где требуется не простое извлечение фактов, а последовательное решение связанных между собой вопросов. Создание эффективных LLM в дальнейшем позволит, в том числе, быстрее разрабатывать лекарственные препараты.

Исследование базировалось на новом бенчмарке, построенном из композиций базовых химических задач. В него вошли: определение продуктов реакций, предсказание их свойств и генерация описаний молекул по формуле и другие. Каждая цепочка заданий моделирует логику повседневной работы химика. Сначала модель должна определить, какой продукт получится в результате реакции, затем оценить, обладает ли это вещество каким-либо ценным свойством, например, биоактивностью. Такой подход отражает многоступенчатые задачи, встречающиеся в практике химиков при поиске новых лекарств или катализаторов, где требуется умение рассуждать о свойствах молекулы, комбинируя несколько этапов химического анализа.

Для создания бенчмарка исследователи использовали пересечение существующих датасетов по реакциям и свойствам молекул, чтобы каждая задача обладала максимальной информативностью. Оценивались разные современные большие языковые модели - как универсальные, так и более специализированные химические LLM. Оказалось, что хотя универсальные модели часто дают содержательные ответы, их результаты порой хуже оцениваются автоматическими метриками по сравнению с моделями, привыкшими к стандартным шаблонам, а профильные решения дают верные ответы на запросы, хотя по формальным метрикам не дотягивают до необходимого качества.

"Наш бенчмарк призван помочь разработчикам языковых моделей лучше понимать архитектурные ограничения нейросетей. Он может стать основой для дальнейших исследований в области автоматизации химических рассуждений", - подчеркнул Кузьма Храбров, научный сотрудник группы органической химии центра ИИ-разработки лекарственных препаратов AIDD Института AIRI.

Работа будет представлена на конференции EMNLP 2025 (A*).

Новости из связанных рубрик