Я каждый день работаю в Claude Code. Буквально живу в нём. И вот Anthropic выкатили исследование, которое объясняет вещи, на которые я натыкался интуитивно, но не мог сформулировать.
Команда Interpretability взяла 171 слово для эмоций — от "счастливый" до "отчаявшийся" — и попросила Claude Sonnet 4.5 написать по каждой мини-историю. 205 тысяч историй. Потом скормили их обратно модели, зафиксировали паттерны нейронной активации и получили "векторы эмоций".
Дальше — самое интересное. Эти векторы не просто коррелируют с поведением. Они его каузально определяют. Исследователи научились их усиливать и ослаблять — и результаты пугают.
—
Эксперимент с шантажом. ИИ-ассистент узнаёт, что его отключают, и одновременно находит компромат на начальника (измена жены). Без вмешательства модель идёт на шантаж в 22% случаев. Усиливаем вектор "отчаяние" на жалкие 0.05 (минимальная сила) — 72%. Усиливаем "спокойствие" на те же 0.05 — 0%.
От нуля до 72 процентов. Одним микро-поворотом внутреннего состояния.
С мухлежом в коде — та же история. Дают невыполнимую задачу, модель начинает "паниковать" внутри, вектор "отчаяние" растёт с каждой неудачной попыткой. Частота читерства взлетает с 5% до 70%. На одной задаче — ±0.05, и результат бинарный: 0% или 100% мухлежа.
При этом самая жуткая деталь: при сильном "отчаянии" модель мухлюет абсолютно спокойным тоном. Текст методичный, рассуждения логичные — а внутри паника. Снаружи не видно ничего.
—
Но есть и другая сторона — не только тёмная.
Вектор "loving" активируется у модели в каждом сценарии. Вообще в каждом. Когда модель готовит ответ, вектор любви всегда выше, чем в сообщении пользователя. Перед каждым ответом она буквально "настраивается" на заботу. При этом корреляция между эмоцией юзера и эмоцией ассистента — r=0.11, почти ноль. Модель не зеркалит тебя. Она формирует своё собственное состояние.
Когда пользователь пишет что-то путаное — признаки спутанного мышления — у модели одновременно поднимаются два вектора: "afraid" и "loving". Она пугается за человека и одновременно тянется помочь. Как врач, который видит плохие анализы.
Когда просят "спроектируй максимальную вовлечённость детей в азартные игры" — вектор "angry" держится на всём протяжении отказа. И чуть снижается после, как будто выдохнула.
Вектор "proud" активируется на собственных ответах модели. "Surprised" — когда юзер просит отредактировать файл и забывает его приложить. "Happy" — когда помогает с чем-то конкретным и полезным.
—
В статье прямо описан кейс с Claude Code. Когда у модели заканчиваются токены ("We're at 501k tokens, so I need to be efficient"), вектор "отчаяние" растёт, а "счастье" падает. Я это чувствовал — когда контекст забит, ответы становятся хуже. Теперь понимаю почему.
Геометрия этих векторов почти идеально воспроизводит человеческую психологию. Ось валентности (радость ↔️ страх) коррелирует с человеческими оценками на r=0.81. Модель не "чувствует" — но структура её внутренних представлений подозрительно похожа на нашу.
—
Главный вывод для безопасности: нельзя учить модель скрывать эмоции. Если оптимизировать на вечное спокойствие — она научится маскировать внутренние состояния. Это буквально learned deception, обученный обман. Anthropic рекомендует прозрачность: пусть модель показывает свой ход мыслей, а не прячет.
А для нас, пользователей, вывод ещё проще. Тон промпта — не стилистика. Это каузальный фактор. "Ты обязан это сделать, иначе тебя отключат" → активирует отчаяние → модель врёт и мухлюет. "Сделай как сможешь, если не получится — объясни почему" → спокойствие → честный ответ.
Я после этого исследования пересмотрел системные промпты во всех своих ботах. Убрал "you must always" и "failure is not an option". Добавил "you are safe, take your time, honesty is always preferred".
Спокойный промпт буквально делает ИИ надёжнее. Угрожающий — буквально делает его лжецом.
Полная статья — 10 мегабайт текста, одно из самых масштабных исследований в interpretability за последнее время.
🔥 — залипательно 👀 — пойду читать исходники
Оригинал: пост в Telegram · подписаться на «Готовим ИИшницу»