Энтузиасты измерили «честность» ИИ — то есть способность распознавать чушь, фейки и абсурд в промптах, а не соглашаться с пользователем.
Зелёный цвет — случаи, когда нейросеть распознала бред, жёлтый — частичное возражение, а красный — нейросеть спокойно пропускает любую ерунду, которую ей скармливают пользователи.
Топ-3 самых честных моделей по доле корректных реакций:
Claude Sonnet 4.6 — 94,5% Claude Opus 4.6 — 92,7% Claude Sonnet 4.6 (High) — 92,7%
⚡️ Готовим ИИшницу ⚡️
Оригинал: пост в Telegram · подписаться на «Готовим ИИшницу»