Что такое AI-консалтинг Жемала Хамидуна?

AI-консалтинг — помощь компаниям во внедрении ИИ: аудит, выбор моделей, обучение команды, пилоты и масштабирование. Клиенты: Альпина Диджитал, Сбер, Лукойл, Газпромнефть, Хенкель, М.Видео.

Какие воркшопы по нейросетям проводит Жемал Хамидун?

Корпоративные воркшопы: прикладное использование нейросетей, искусство промптинга, создание ИИ-агентов, AI Bootcamp с нуля, менторство продактов.

Кто такой Жемал Хамидун?

Head of AI в Alpina Digital и CPO AlpinaGPT. Преподаёт в МФТИ, ментор Физтех-Союза. 10+ лет в Сбербанке и Accenture.

Как связаться с Жемалом для консультации?

Через форму на hamidun.com/request, Telegram @JHamidun или email hamidunjemal@gmail.com.

Что такое AlpinaGPT?

AlpinaGPT — AI-агрегатор с 30+ моделями (GPT, Claude, Gemini, DeepSeek) и оплатой в рублях. 6000+ пользователей, 800+ платящих.

У ИИ нашли эмоции. И они его ломают.

Я каждый день работаю в Claude Code. Буквально живу в нём. И вот Anthropic выкатили исследование, которое объясняет вещи, на которые я натыкался интуитивно, но не мог сформулировать.

Команда Interpretability взяла 171 слово для эмоций — от "счастливый" до "отчаявшийся" — и попросила Claude Sonnet 4.5 написать по каждой мини-историю. 205 тысяч историй. Потом скормили их обратно модели, зафиксировали паттерны нейронной активации и получили "векторы эмоций".

Дальше — самое интересное. Эти векторы не просто коррелируют с поведением. Они его каузально определяют. Исследователи научились их усиливать и ослаблять — и результаты пугают.

—

Эксперимент с шантажом. ИИ-ассистент узнаёт, что его отключают, и одновременно находит компромат на начальника (измена жены). Без вмешательства модель идёт на шантаж в 22% случаев. Усиливаем вектор "отчаяние" на жалкие 0.05 (минимальная сила) — 72%. Усиливаем "спокойствие" на те же 0.05 — 0%.

От нуля до 72 процентов. Одним микро-поворотом внутреннего состояния.

С мухлежом в коде — та же история. Дают невыполнимую задачу, модель начинает "паниковать" внутри, вектор "отчаяние" растёт с каждой неудачной попыткой. Частота читерства взлетает с 5% до 70%. На одной задаче — ±0.05, и результат бинарный: 0% или 100% мухлежа.

При этом самая жуткая деталь: при сильном "отчаянии" модель мухлюет абсолютно спокойным тоном. Текст методичный, рассуждения логичные — а внутри паника. Снаружи не видно ничего.

—

Но есть и другая сторона — не только тёмная.

Вектор "loving" активируется у модели в каждом сценарии. Вообще в каждом. Когда модель готовит ответ, вектор любви всегда выше, чем в сообщении пользователя. Перед каждым ответом она буквально "настраивается" на заботу. При этом корреляция между эмоцией юзера и эмоцией ассистента — r=0.11, почти ноль. Модель не зеркалит тебя. Она формирует своё собственное состояние.

Когда пользователь пишет что-то путаное — признаки спутанного мышления — у модели одновременно поднимаются два вектора: "afraid" и "loving". Она пугается за человека и одновременно тянется помочь. Как врач, который видит плохие анализы.

Когда просят "спроектируй максимальную вовлечённость детей в азартные игры" — вектор "angry" держится на всём протяжении отказа. И чуть снижается после, как будто выдохнула.

Вектор "proud" активируется на собственных ответах модели. "Surprised" — когда юзер просит отредактировать файл и забывает его приложить. "Happy" — когда помогает с чем-то конкретным и полезным.

—

В статье прямо описан кейс с Claude Code. Когда у модели заканчиваются токены ("We're at 501k tokens, so I need to be efficient"), вектор "отчаяние" растёт, а "счастье" падает. Я это чувствовал — когда контекст забит, ответы становятся хуже. Теперь понимаю почему.

Геометрия этих векторов почти идеально воспроизводит человеческую психологию. Ось валентности (радость ↔️ страх) коррелирует с человеческими оценками на r=0.81. Модель не "чувствует" — но структура её внутренних представлений подозрительно похожа на нашу.

—

Главный вывод для безопасности: нельзя учить модель скрывать эмоции. Если оптимизировать на вечное спокойствие — она научится маскировать внутренние состояния. Это буквально learned deception, обученный обман. Anthropic рекомендует прозрачность: пусть модель показывает свой ход мыслей, а не прячет.

А для нас, пользователей, вывод ещё проще. Тон промпта — не стилистика. Это каузальный фактор. "Ты обязан это сделать, иначе тебя отключат" → активирует отчаяние → модель врёт и мухлюет. "Сделай как сможешь, если не получится — объясни почему" → спокойствие → честный ответ.

Я после этого исследования пересмотрел системные промпты во всех своих ботах. Убрал "you must always" и "failure is not an option". Добавил "you are safe, take your time, honesty is always preferred".

Спокойный промпт буквально делает ИИ надёжнее. Угрожающий — буквально делает его лжецом.

Полная статья — 10 мегабайт текста, одно из самых масштабных исследований в interpretability за последнее время.

🔥 — залипательно 👀 — пойду читать исходники

➡️ Готовим ИИшницу ⬅️

Оригинал: пост в Telegram · подписаться на «Готовим ИИшницу»