© ComNews
04.09.2025

Ученые из Института AIRI и немецкого Constructor University представили совместную работу, посвященную разработке инновационной модели для генерации искусственных белков — DiMA.

Одна из практических задач модели — генерация белков с заранее определенными характеристиками. Она способна создавать не встречавшиеся ранее в природе белковые последовательности, точно соответствующие заданным исследователями критериям. Новые белки необходимы для разработки лекарственных препаратов.

С точки зрения химии, белок представляет полимер: цепочку из аминокислот, которые в результате взаимодействий в пространстве сворачиваются в определенную структуру. Ее можно представить как набор координат всех атомов в трехмерном пространстве, или - в развернутом виде - как последовательность аминокислот, где каждую аминокислоту можно записать как отдельную "букву". Таким образом формируется что-то вроде длинного слова или предложения, где каждая "буква" означает уникальные физико-химические свойства. Их последовательность определяет, как белок свернется, а следовательно — какие функции и характеристики будет иметь.

Для создания искусственных белков ученые уже применяли различные типы языковых моделей. Авторегрессионные модели работают подобно ChatGPT — генерируют белковые последовательности побуквенно. Дискретные диффузионные модели создают всю последовательность, "слово", сразу. Но оба эти подхода требуют большого размера модели и огромного количества данных для обучения.

Ученые предложили принципиально новый подход, основанный на непрерывной Гауссовой диффузии. Сначала DiMA обучили генерировать разнообразные белки, которые всегда получаются биологически осмысленными и при этом не повторяют дословно известные природные последовательности. По сути, модель научилась понимать, как устроена вся "Вселенная белков", и может ее достоверно имитировать. На втором этапе исследователи дообучили систему генерировать белки только из определенных областей пространства, задавая соответствующие условия. Например, белки определенного семейства или белки с заданной трехмерной структурой. Такой подход позволяет не только расширять представления о теоретически возможных белковых конфигурациях, но и решать конкретные прикладные задачи в биотехнологиях и медицине.

"В естественных условиях существуют белки с одинаковой пространственной укладкой, но разными аминокислотными последовательностями, однако, эволюция показала нам лишь те варианты, которые были обусловлены конкретными биологическими потребностями и ограничениями. Теоретически возможных вариантов белков существует астрономическое количество, поэтому наблюдаемые в природе белки представляют собой лишь каплю в океане возможностей. DiMA способна напрямую генерировать белковые последовательности, которые никогда не встречались в природе, но точно соответствуют заданным исследователем критериям — например, определенной трехмерной укладке или функциональным свойствам", — отметил Павел Страшнов, ведущий научный сотрудник группы дизайна белков Центра ИИ-разработки новых лекарственных препаратов Института AIRI.

Новости из связанных рубрик