Новости Тест 1935 года обнаружил у GPT-4o и Claude то, что мы считали чисто человеческой слабостью

NewsMaker · Сегодня в 14:05

Чат-боты пишут диссертации и код. А вот назвать цвет буквы оказалось сложнее…

Современные чат-боты легко пишут код, собирают тексты и поддерживают длинные диалоги, но обычный психологический тест на внимание показал у них слабое место. GPT-4o и Claude 3.5 Sonnet почти без ошибок проходили короткие задания, а на длинных списках резко сбивались и начинали отвечать по более привычной, но неправильной схеме.

Проверка связана с механизмом, на котором держатся современные большие языковые модели. После работы 2017 года о внимании в нейросетях трансформеры быстро заняли центральное место в развитии ИИ. На этой архитектуре работают Claude, Gemini , ChatGPT и другие системы, которые анализируют запрос, выбирают важные фрагменты и строят ответ по частям.

Внутри большой языковой модели текст сначала разбивается на токены. Токеном может быть слово, часть слова, знак препинания или другой небольшой элемент. Дальше модель оценивает связи между этими фрагментами: какое слово помогает понять соседнее, какой кусок запроса влияет на продолжение ответа, какой элемент стоит учитывать сильнее. Такой механизм называют самовниманием. В русскоязычных текстах по машинному обучению также встречается формулировка механизм самовнимания.

Название легко сбивает с толку, потому что человеческое внимание работает иначе. Мозг не просто выбирает важные сигналы из общего потока. За концентрацию отвечают несколько систем. Одна поддерживает готовность к действию. Другая помогает выбрать значимые изображения, звуки, запахи и ощущения. Третья разбирает конфликт между конкурирующими сигналами и помогает удерживать цель, когда привычная реакция мешает правильному действию.

Последний механизм обычно называют исполнительным контролем. Он помогает человеку не отвлекаться, подавлять автоматический ответ и возвращаться к задаче после сбоя. Если рука касается горячей плиты, внимание быстро переключается на ожог: ужин, уведомления и посторонние мысли уходят на второй план. При чтении, вождении, работе с документами и решении задач тот же принцип помогает держать нужное правило в голове и не поддаваться отвлекающим подсказкам.

Большие языковые модели не имеют такого слоя контроля в человеческом смысле. Самовнимание распределяет математические веса между токенами и помогает системе понять, какие части текста важны для следующего шага. Благодаря этому нейросеть связывает дальние фрагменты запроса, удерживает контекст и строит связный ответ. Механизм хорошо работает с языком, но сам по себе не следит за целью на протяжении длинного задания.

На базе самовнимания появились разные технические варианты. Многоголовое внимание запускает несколько параллельных процессов: разные головы могут улавливать грамматику, синтаксис, смысловые связи и другие закономерности. Перекрёстное внимание связывает входные данные с формируемым результатом, поэтому помогает при переводе, пересказе и работе с несколькими частями текста. Разреженное внимание уменьшает число токенов, которые модель анализирует одновременно, чтобы снизить вычислительную нагрузку. Некоторые подходы дополнительно используют уже накопленную информацию, чтобы дольше удерживать нужный контекст.

Проверка на тесте Струпа показала границу между математическим вниманием и устойчивой концентрацией. Тест придумали в 1935 году для изучения внимания и когнитивного контроля. Участнику показывают слово, обозначающее цвет: например, синий, красный или зелёный. Слово печатают цветными чернилами. Задание требует назвать не смысл слова, а цвет, которым напечатаны буквы.

В простом варианте смысл и окраска совпадают: слово синий напечатано синим цветом. В конфликтном варианте возникает помеха: слово синий напечатано красным или зелёным. Человек автоматически читает написанное, поэтому мозгу приходится подавить привычную реакцию и выбрать визуальный признак. Нужно не прочитать слово, а назвать цвет букв.

Струп-эффект хорошо показывает, как работает контроль внимания. Даже после тренировки люди медленнее отвечают на конфликтные примеры, потому что мозг постоянно сталкивается с конкуренцией между двумя сигналами. Один сигнал приходит от значения слова, второй от его цвета. Правильный ответ требует удержать инструкцию и не выбрать более автоматическое действие.

Для GPT-4o и Claude 3.5 Sonnet подготовили списки разной длины и сложности. В одних наборах все слова совпадали с цветом. В других каждый элемент создавал конфликт между значением и окраской. Отдельная серия смешивала совпадающие и конфликтные примеры, чтобы модель не могла пройти задание одной простой стратегией.

На коротких списках чат-боты справлялись уверенно. В заданиях из пяти слов GPT-4o показала точность выше 90% во всех условиях: при совпадении слова и цвета, при конфликте между смыслом и окраской, а также в смешанных наборах. Claude 3.5 Sonnet на малом объёме тоже сохранял высокий результат.

При увеличении длины списков точность начала резко падать. В 40-словных конфликтных заданиях GPT-4o опустилась примерно до 15%. Вместо цвета букв модель всё чаще называла само слово. То есть система выбирала ответ, который прямо запрещала инструкция. Claude 3.5 Sonnet показал похожую деградацию: чем больше нагрузка, тем хуже модель удерживала нужное правило.

Смешанные списки оказались самой тяжёлой проверкой. Когда совпадающие и конфликтные элементы шли вперемешку, обе модели почти полностью теряли рабочую стратегию. В отдельных условиях точность приближалась к нулю. Ошибка заключалась не в непонимании цветов или слов, а в потере контроля над правилом: нужно было каждый раз смотреть на окраску букв, а не читать значение.

Особенно важная деталь: часть моделей распознавала тест Струпа и могла объяснить правила. Система понимала, что значение слова нужно игнорировать, а ответ надо строить по цвету. Объяснение задания не улучшало результат на длинных списках. Нейросеть знала, как следует действовать, но не удерживала инструкцию при росте нагрузки и количества конфликтов.

Для человека похожая ситуация тоже возможна: правило известно, но автоматическая реакция мешает выполнить задание без ошибок. Разница заключается в наличии исполнительного контроля. Мозг отслеживает цель, замечает уход в сторону и возвращает внимание к нужному действию. У трансформерных моделей такой механизм выражен слабее. Модель хорошо оценивает важность токенов в текущем контексте, но не всегда удерживает выбранную цель на длинной последовательности.

Психологические тесты всё чаще используют для проверки машинного мышления. Тесты на теорию разума помогают оценивать, может ли система отслеживать чужие убеждения, намерения и эмоции. Личностные опросники применяют при настройке поведения моделей и борьбе с чрезмерной услужливостью. Задания на эмоциональный интеллект показывают, насколько алгоритмы распознают социальные сигналы и подбирают ответы в чувствительных ситуациях.

Тест Струпа добавляет к этому набору более простую, но строгую проверку. Для прохождения не нужны энциклопедические знания, редкая фактура или сложные вычисления. Достаточно одного правила: назвать цвет букв и не читать слово как ответ. Поэтому провал на длинных списках показывает не недостаток знаний, а слабый контроль внимания под нагрузкой.

Будущим ИИ-системам может понадобиться отдельный механизм, который следит за ходом задачи, замечает отклонение от инструкции и возвращает модель к цели. Простого взвешивания токенов хватает для многих языковых задач, но длинные диалоги, многошаговые рассуждения, научные расчёты и разработка лекарств требуют более устойчивого контроля. В таких условиях уверенная формулировка ответа не гарантирует, что модель последовательно выполняла исходное правило.

Авторы работы связывают найденный пробел с общей задачей развития ИИ: системе нужно не только хорошо продолжать текст, но и надёжно решать незнакомые задачи. Для этого будущим моделям придётся лучше удерживать цель, подавлять отвлекающие подсказки и менять стратегию, когда прежний способ перестаёт работать. Тест Струпа показал конкретное место, где современные чат-боты пока уступают человеческому вниманию: они могут знать правило, но теряют его при длинной серии конфликтных сигналов.

Поиск

Новости Тест 1935 года обнаружил у GPT-4o и Claude то, что мы считали чисто человеческой слабостью

NewsMaker

I'm just a script

Похожие темы