Жемал Хамидун
БЛОГ

Какая нейросеть не ведётся на бред

Инструменты
Какая нейросеть не ведётся на бред

Энтузиасты измерили «честность» ИИ — то есть способность распознавать чушь, фейки и абсурд в промптах, а не соглашаться с пользователем.

Зелёный цвет — случаи, когда нейросеть распознала бред, жёлтый — частичное возражение, а красный — нейросеть спокойно пропускает любую ерунду, которую ей скармливают пользователи.

Топ-3 самых честных моделей по доле корректных реакций:

Claude Sonnet 4.6 — 94,5% Claude Opus 4.6 — 92,7% Claude Sonnet 4.6 (High) — 92,7%