Нейросети научились сжимать текст с помощью обсценной лексики
Ученые из Института AIRI, НИУ ВШЭ и Университета Иннополис показали, что большие языковые модели могут укорачивать русскоязычные тексты за счет обсценного лексикона без заметной потери смысла. Это проверяли на коротких предложениях и полноформатных новостных текстах, а также тестировали, насколько подобный подход переносится в более формальные сценарии без использования мата. Работа была представлена на конференции AAAI в Сингапуре (А*).
Идея исследования возникла при изучении фильтров для контента с разными возрастными режимами. Команда задумалась: а что, если не просто обучить ИИ вычищать грубые слова из текстов, но сделать так, чтобы нейросеть переводила текст в нейтральный регистр с минимальной потерей смысла? В процессе стало заметно, что, создавая тексты, LLM нередко используют обсценную лексику без понятной функции и вставляют в предложения мат "просто так", тогда как в живой речи одно такое слово может заменять целое предложение и работать как сверхплотная упаковка смысла. Отсюда возник следующий шаг: ученые решили проверить, можно ли целенаправленно использовать этот эффект для сжатия текстов при сохранении основной мысли, чтобы экономить вычислительные ресурсы. Под сжатием авторы понимают не классическую суммаризацию и не побуквенную компрессию, а уменьшение длины высказывания за счет специальных выражений с минимальной потерей семантики.
Словарь соответствий между нейтральными выражениями и обсценными аналогами собирали из открытых источников, включая Wiktionary, и дополняли вручную. Эквивалентность трактовали как семантическую близость и сопоставимый контекст употребления относительно обучающей выборки. Эти пары использовались на этапе дообучения модели и входили в составную функцию награды.
Технически рассматривались модели Qwen2.5-7B-Instruct и Llama-3.1-8B-Instruct с числом параметров до порядка 8 миллиардов. К слову, из-за жестких настроек выравнивания Llama даже после дообучения практически отказывалась генерировать обсценную лексику. В итоге исследователи сосредоточились на авторегрессионной LLM и применили RL-дообучение с составной функцией награды. В нее включили штраф за превышение целевой длины текста и поощрение за использование обсценного лексикона именно как средства компрессии. Бонус начислялся только если модель одновременно сокращала текст и сохраняла его смысл.
Подход тестировали на двух наборах данных. Первый состоял из коротких предложений длиной от 3 до 50 токенов. Второй — из новостных текстов и редакторских саммари.
Одним из сложных моментов стало то, что большинство открытых датасетов содержит только отдельные фрагменты фраз или обрывки диалогов. По ним сложно понять, используется ли обсценная лексика как шутка, агрессия, эмоциональное усиление или просто "слово-паразит". В будущих работах исследователи планируют сосредоточиться на сборе более качественных и контекстно богатых данных, чтобы модель точнее различала эти случаи.
"Наша главная цель — не научить ИИ ругаться как человек, а использовать лингвистический феномен "смысловой плотности" для улучшения алгоритмов. Рабочая модель в итоге не использует нецензурную лексику при обработке обычных текстов. Тренировка на контрастных примерах (нейтральная фраза → очень короткая эмоциональная замена) позволила ИИ тоньше улавливать суть высказываний. Сферы образования, профессиональное общение, публичные интерфейсы и официальные сервисы рассматриваются как недопустимые для применения мата даже в экспериментальном режиме", - подчеркнул ведущий научный сотрудник AIRI Илья Макаров.
Ранее исследователями из группы "Прикладное NLP" и "Вычислительная семантика" на конференции NAACL был представлен синтетический многоязычный набор данных для детоксификации текста. Он содержит примеры токсичных текстов с нецензурной лексикой и соответствующие им тексты, очищенные от брани и грубых высказываний. Набор сгенерировали с помощью нескольких LLM и экспериментально продемонстрировали его эффективность.
