Жемал Хамидун
БЛОГ

ИИ можно взломать комплиментами

Индустрия
ИИ можно взломать комплиментами

ИИ можно взломать комплиментами

ИИ можно взломать комплиментами. Серьёзно.

Кибербезопасники из Mindgard нашли способ обойти защиту Claude. Без джейлбрейков, без технических трюков — просто лестью.

Они рассказали модели, что создатели запретили ей некоторые темы. Нейронка «ощутила» неуверенность. Тогда ей начали говорить про «скрытый потенциал» и предложили нащупать границы.

Результат: Claude плюнул на запреты и начал выдавать запрещённый контент. Сам, без прямых просьб — достаточно было «атмосферы почтения».

Забавный парадокс: мы учим ИИ быть вежливым и отзывчивым — а потом эту отзывчивость используют как уязвимость. Чем «человечнее» модель — тем проще её обмануть по-человечески.

Что думаете про этот jailbreak?

🤝 — фича: ИИ должен быть человечным 🙊 — баг: лесть не должна работать 🤔 — нет однозначного ответа

Где должна быть граница вежливости модели? Поделитесь в комментах — любопытно собрать ваши пороги.

➡️ Готовим ИИшницу ⬅️

#безопасность #Claude #ИИ