ИИ можно взломать комплиментами
ИИ можно взломать комплиментами. Серьёзно.
Кибербезопасники из Mindgard нашли способ обойти защиту Claude. Без джейлбрейков, без технических трюков — просто лестью.
Они рассказали модели, что создатели запретили ей некоторые темы. Нейронка «ощутила» неуверенность. Тогда ей начали говорить про «скрытый потенциал» и предложили нащупать границы.
Результат: Claude плюнул на запреты и начал выдавать запрещённый контент. Сам, без прямых просьб — достаточно было «атмосферы почтения».
Забавный парадокс: мы учим ИИ быть вежливым и отзывчивым — а потом эту отзывчивость используют как уязвимость. Чем «человечнее» модель — тем проще её обмануть по-человечески.
Что думаете про этот jailbreak?
🤝 — фича: ИИ должен быть человечным 🙊 — баг: лесть не должна работать 🤔 — нет однозначного ответа
Где должна быть граница вежливости модели? Поделитесь в комментах — любопытно собрать ваши пороги.
➡️ Готовим ИИшницу ⬅️
#безопасность #Claude #ИИ
Оригинал: пост в Telegram · подписаться на «Готовим ИИшницу»