Учёные провели эксперимент, сравнив восприятие 1854 объектов из базы THINGS. Людям и моделям (ChatGPT-3.5, Llama3.1, Gemini Pro Vision 1.0, Qwen2\_VL-7B) показывали наборы из трёх предметов и задавали простой вопрос: «Какой здесь лишний?»
Собрали аж 4,7 миллиона ответов и на их основе выстроили «ментальное пространство» (по сути, embeddings в 66 измерениях), чтобы понять, насколько близко восприятие моделей к человеческому.
Вот что получилось:
Что это значит для нас? А то, что наши «ментальные карты» с моделями отличаются, и промты стоит подстраивать под те «оси», по которым LLM лучше понимают задачу. То есть меньше эмоций, больше категорий и конкретики.
Вот несколько советов на основе исследования:
Кстати, в основной задаче «кто тут лишний» LLM показали точность 56.7%, мультимодальные модели — 63.4%, а люди — 64.1% (при случайных 33.3%). То есть модели и правда мыслят примерно как мы.
Попробуйте применить этот подход на практике и напишите, заметили ли вы, что ответы стали ближе к тому, как думает человек? Может, есть и собственные лайфхаки, интересно будет посмотреть?
Оригинал: пост в Telegram · подписаться на «Готовим ИИшницу»