В эпоху стремительного развития искусственного интеллекта, когда большие языковые модели (БЯМ), такие как ChatGPT, Gemini и Claude, демонстрируют невиданные ранее возможности — от мгновенного решения сложнейших математических уравнений до точной диагностики заболеваний и генерации рабочего кода — возникает острая, даже жгучая, необходимость в адекватных инструментах для их оценки. Эти алгоритмы не просто обрабатывают информацию с беспрецедентной скоростью; они начинают развивать своего рода «здравый смысл», способность к рассуждению и пониманию контекста, что делает традиционные, порой наивные, методы тестирования все менее и менее эффективными.
Представьте себе, что вы — не просто машина для поиска информации, а мыслящая сущность, сталкивающаяся с вопросами, которые требуют не поверхностного поиска в интернете, а глубокого понимания контекста, междисциплинарных знаний и даже интуиции. Именно такие вызовы бросают современным БЯМ:
- Как перевести римскую надпись с надгробной плиты, учитывая не только особенности латыни того периода, но и региональные диалекты, сокращения и культурный контекст погребальных обрядов? Это не просто лингвистика, это археология и история.
- Сколько пар сухожилий поддерживается одной костью у колибри, и как это связано с их уникальной анатомией, позволяющей им зависать в воздухе и маневрировать с невероятной точностью? Здесь требуется глубокое знание биологии, биомеханики и даже физики полета.
- Каковы три ключевых этапа сложной реакции Фриделя-Крафтса, и почему они протекают именно в такой последовательности, с учетом катализаторов и энергетических барьеров? Это уже не просто химия, это тонкое понимание реакционной кинетики.
- Основываясь на новейших исследованиях тиберийского произношения, идентифицируйте все слоги, заканчивающиеся согласным звуком, в данном отрывке еврейского текста, а также объясните возможные исключения или диалектные вариации. Это задача для лингвиста-семитолога высшего класса.
Эти вопросы — лишь малая часть того интеллектуального лабиринта, с чем сталкиваются современные БЯМ в новом бенчмарке, призванном проверить пределы их возможностей. Исследователи долгое время полагались на стандартизированные тесты для отслеживания производительности ИИ, но по мере того, как передовые алгоритмы стали регулярно набирать более 90 процентов, а иногда и 95-99% на таких экзаменах, старые бенчмарки быстро устаревают. Их ограничения заключаются в том, что многие из них могут быть «взломаны» ИИ через доступ к обучающим данным (т.н. «утечка данных» или data leakage) или способность искать ответы онлайн, имитируя понимание, а не демонстрируя его.
В ответ на эту острую проблему, международная команда ведущих ученых и экспертов из разных областей разработала своего рода новый SAT для языковых моделей, получивший громкое и интригующее название «Последний Экзамен Человечества» (Humanity’s Last Exam, HLE). Этот тест включает 2500 уникальных и сложнейших вопросов, охватывающих математику, гуманитарные и естественные науки, а также междисциплинарные области. Каждый вопрос был тщательно разработан и многократно проверен экспертами-людьми со всего мира, чтобы обеспечить недвусмысленность ответов и исключить возможность их легкого нахождения в интернете или путем простого сопоставления паттернов. Главная цель HLE — не измерить «интеллект» ИИ в широком смысле, что до сих пор является предметом философских дебатов, а оценить его производительность в решении экспертных академических задач. Это критически важный шаг для отслеживания его прогресса в различных областях исследований и для понимания, насколько близко или далеко ИИ находится от человеческого уровня понимания и рассуждения.
Как метко отметили Кэтрин Коллинз и Джошуа Тененбаум из Массачусетского технологического института, не участвовавшие непосредственно в исследовании: «HLE, несомненно, предлагает полезное окно в текущую экспертизу ИИ, предоставляя ценные метрики. Но важно помнить, что это отнюдь не последнее слово о человеческом мышлении или способности ИИ вносить в него вклад. Это лишь один из этапов долгого пути».
Динамика Оценки Искусственного Интеллекта: Как мы измеряем невидимое?
За последние несколько лет ИИ, казалось бы, постоянно умнеет. С каждым новым поколением моделей мы видим все более впечатляющие демонстрации их способностей. Но что именно означает «умный» для алгоритма, лишенного сознания, эмоций и жизненного опыта? И, что еще важнее, как мы можем объективно измерить этот неуловимый прогресс, когда сам ИИ учится адаптироваться и даже «обманывать» наши системы оценки?
Традиционно, одним из основных способов измерения «интеллекта» ИИ было тестирование различных моделей или их обновленных версий с помощью стандартизированных бенчмарков. Эти коллекции вопросов, как правило, охватывают широкий круг тем и требуют не просто поиска информации в интернете, но и обширного представления о мире, а главное – способности применять это представление для ответа на вопросы. Это очень похоже на сдачу экзамена на водительские права: вы можете вызубрить весь справочник правил и положений, но все равно должны уметь определить, кто имеет преимущество проезда в реальной дорожной ситуации на перекрестке с круговым движением, даже если правила кажутся неоднозначными. Вы должны демонстрировать не только знание, но и рассуждение, понимание контекста и предвидение.
Проблемы Устаревших Бенчмарков: Почему старые правила больше не работают?
Однако бенчмарки полезны только до тех пор, пока они ставят ИИ в тупик, выявляя его слабые стороны и стимулируя дальнейшее развитие. Современные модели стали чрезвычайно искусными в сдаче тестов, регулярно демонстрируя почти идеальные результаты на существующих бенчмарках. Например, на таких тестах, как MMLU (Massive Multitask Language Understanding), который охватывает 57 различных областей знаний, включая право, этику и физику, модели GPT-4 и Gemini Ultra уже в 2023 году показывали результаты выше 85-90%, в то время как еще несколько лет назад средний балл ИИ составлял около 30-40%. На некоторых подкатегориях они даже превосходили средний балл человека, что делало эти тесты практически бесполезными для выявления подлинных прорывов в возможностях ИИ.
Как пояснили Коллинз и Тененбаум, проблема усугубляется тем, что, помимо обучения на всем интернете (что уже само по себе может включать тестовые вопросы или их части), современные системы ИИ часто могут искать информацию онлайн во время теста (так называемая «retrieval-augmented generation» или RAG). Это позволяет им фактически «учиться обманывать» систему оценки, а не демонстрировать истинное понимание или генеративное знание. Представьте себе студента, который сдает экзамен, имея неограниченный доступ к Google и Wikipedia. Будут ли его высокие баллы отражать его собственное понимание или лишь его способность эффективно искать информацию? Именно эта дилемма подрывает доверие к старым бенчмаркам.
Создание Humanity’s Last Exam (HLE): Новый рубеж для ИИ
Осознавая эту критическую потребность, Консорциум Авторов HLE, в сотрудничестве с некоммерческой организацией Center for AI Safety и компанией Scale AI, приступил к разработке нового бенчмарка, специально созданного, чтобы запутать даже самые продвинутые ИИ. Они обратились к тысячам экспертов из более чем 50 стран мира, представляющих самые разнообразные академические дисциплины — от древнегреческой филологии до квантовой физики и молекулярной биологии. Цель была проста, но амбициозна: собрать вопросы университетского уровня по конкретным, глубоко специализированным областям, которые требуют не просто фактологических знаний, а истинного экспертного понимания и рассуждения.
Вопросы HLE имеют два основных типа ответов, тщательно выбранных для обеспечения объективности и простоты оценки:
- Один тип требует полного и точного совпадения с фактическим решением. Это могут быть сложные математические доказательства, конкретные исторические даты, химические формулы или лингвистические разборы, где есть только один абсолютно верный ответ. Такой подход обеспечивает однозначность и исключает субъективность оценки.
- Другой тип — это вопросы с множественным выбором, но с очень тонко подобранными дистракторами (неправильными вариантами), которые могут показаться правдоподобными для неспециалиста или ИИ, но легко отбрасываются экспертом. Это упрощает автоматическую оценку результатов теста, сохраняя при этом высокий уровень сложности.
Важно отметить, что команда сознательно избегала вопросов, требующих пространных или открытых ответов, таких как написание научной статьи, философского эссе или юридического заключения, где нет четко «правильного» ответа или объективного способа его оценить. Почему? Потому что цель HLE — измерить конкретную, верифицируемую академическую экспертизу, а не креативность, субъективные суждения или литературные способности, которые требуют совершенно иных подходов к оценке.
Процесс отбора вопросов был многоступенчатым и чрезвычайно строгим. Из примерно 70 000 поданных вопросов, которые изначально были предложены экспертами, лишь малая часть — около 3.5% — перешла на следующий этап. Только те вопросы, что ставили в тупик несколько ведущих моделей ИИ (таких как GPT-4, Claude 2, Gemini Pro) на предварительных тестах, были рассмотрены дальше. На втором этапе эксперты оценивали их полезность для оценки ИИ, используя строгие рекомендации, что обеспечило высокое качество, актуальность и уникальность финального набора вопросов. Это был не просто сбор фактов, а создание интеллектуальных ловушек для ИИ.
Будущее Оценки ИИ: Что показывают первые результаты?
Команда HLE выпустила в публичный доступ 2500 вопросов из своей обширной коллекции, сохраняя остальную часть в строжайшей тайне. Это стратегическое решение необходимо, чтобы предотвратить «накрутку» результатов системами ИИ, которые могли бы «запомнить» ответы на ранее виденные вопросы, как это часто происходило со старыми бенчмарками. Оставшаяся часть вопросов будет использоваться для будущих, закрытых тестирований, обеспечивая постоянную новизну и актуальность экзамена.
Когда тест был впервые представлен в начале 2025 года, ведущие модели ИИ от таких гигантов, как Google, OpenAI и Anthropic, набирали крайне низкие баллы — в диапазоне однозначных чисел, часто менее 3%. Это было шоком для многих, кто привык к их впечатляющим результатам на других тестах. Например, на первых итерациях GPT-4o от OpenAI набрала всего 2.7%, а Gemini Ultra показала схожие результаты. Эти цифры ясно демонстрировали огромную пропасть между способностями ИИ и человеческим экспертным уровнем в решении по-настоящему сложных, междисциплинарных задач.
Однако по мере того, как HLE привлек внимание компаний, занимающихся ИИ, многие начали использовать его как внутренний бенчмарк для демонстрации производительности своих новых релизов. И, удивительно, но новые алгоритмы показали некоторое улучшение. Например, показатель успеха GPT-5 (следующего поколения после GPT-4) увеличился до 25%. Это, безусловно, значительный скачок, демонстрирующий быстрый прогресс в развитии ИИ. Тем не менее, даже ведущие модели все еще испытывают значительные трудности, и их результаты далеки от того, что мог бы показать средний студент-гуманитарий или естественник, специализирующийся в данной области, который, вероятно, набрал бы 70-80% и выше. Эти результаты демонстрируют, что, хотя ИИ прогрессирует с ошеломляющей скоростью, он все еще далек от человеческого уровня понимания, рассуждения и решения сложных академических задач, требующих истинной экспертизы.
Новый Стандарт или Спорный Инструмент? Взгляд с разных сторон
Подобно тестам IQ и стандартизированным экзаменам для поступления в колледжи, HLE, несмотря на свою инновационность и тщательную разработку, также подвергся критике. И хотя тест, безусловно, предлагает ценные преимущества и проливает свет на текущие возможности ИИ, его ограничения не могут быть проигнорированы. В конце концов, ни один тест не может охватить всю полноту человеческого интеллекта, и ИИ здесь не исключение.
Критика и Недостатки HLE: Что тест не может измерить?
Одним из основных возражений, которое часто звучит в академических кругах, является само название теста — «Последний Экзамен Человечества». По мнению некоторых критиков, оно слишком «бомбастично» и может ввести широкую общественность в заблуждение относительно истинных возможностей ИИ по сравнению с человеческими экспертами. Оно создает впечатление, что ИИ вот-вот достигнет или превзойдет человеческий интеллект в целом, хотя HLE измеряет лишь узкий, хотя и глубокий, аспект академической экспертизы. Не ведет ли это к излишней тревожности или, наоборот, к необоснованному хайпу вокруг ИИ?
Другие критики задаются более фундаментальным вопросом: что именно измеряет тест? Хотя очевидным ответом является экспертиза в широком диапазоне академических областей и улучшение моделей, как тонко отметили Коллинз и Тененбаум, текущая структура HLE, с ее акцентом на короткие и однозначные ответы, «по своей сути ограничивает самые сложные и значимые вопросы, с которыми сталкиваются человеческие эксперты». Эти вопросы часто требуют глубоких, вдумчивых ответов, часто междисциплинарных, которые трудно или невозможно уловить с помощью коротких ответов или вопросов с множественным выбором. Истинная экспертиза выходит далеко за рамки ответа на существующие вопросы. Она включает в себя способность к синтезу, критическому мышлению, творчеству и даже оспариванию самой постановки задачи.
Подумайте сами, что отличает настоящего эксперта от простого эрудита? Человеческие эксперты не только решают заданные проблемы, но и способны:
- Оценивать осмысленность самого вопроса, например, обнаруживать возможные неточности в формулировках, скрытые допущения или даже возможные ответы, не предусмотренные составителем теста. Они могут сказать: «Этот вопрос некорректен» или «Для ответа требуется дополнительная информация».
- Определять степень своей уверенности в своих ответах, что отражает метакогнитивные способности – способность осознавать собственные мыслительные процессы и их ограничения. Эксперт может сказать: «Я почти уверен в этом ответе, но есть небольшая вероятность ошибки из-за…»
- Задавать новые, прорывные вопросы, расширяя границы познания и формулируя проблемы, о существовании которых никто раньше не подозревал. Именно так развиваются наука и искусство.
Как проницательно написал Суббарао Камбхампати, бывший президент Ассоциации по развитию искусственного интеллекта: «Человечество не содержится ни в одном статичном тесте, но в нашей способности постоянно развиваться как в постановке, так и в ответе на вопросы, о которых мы никогда, в самых смелых мечтах, не думали, что будем задавать — из поколения в поколение». Это глубокое замечание подчеркивает, что истинная мера интеллекта — это не объем накопленных знаний, а способность к непрерывному обучению, адаптации и творчеству.
Кроме того, существует вполне реальный риск, что рост баллов HLE может быть результатом не фундаментальных достижений в модели, а целенаправленного дополнительного обучения алгоритма на общедоступных наборах данных. Это похоже на «зубрежку» экзаменационных вопросов прошлых лет перед тестом. Если модель просто «заучивает» ответы или паттерны, специфичные для HLE, это не означает истинного приобретения ею экспертизы или «интеллекта». Это лишь отражение ее способности оптимизироваться под конкретный бенчмарк, что может создать ложное ощущение прогресса. Это проблема, с которой сталкивались многие бенчмарки в прошлом, и HLE, несмотря на все усилия, не полностью застрахован от нее.
Преимущества и Будущее Оценки ИИ: Дорога впереди
Несмотря на эти недостатки и справедливую критику, команда HLE приветствует дебаты и продолжает совершенствовать бенчмарк, признавая, что он является лишь одним из инструментов в постоянно расширяющемся арсенале методов оценки. И это одно из ключевых преимуществ HLE: он служит мощным катализатором для развития более сложных и всесторонних методов оценки, заставляя исследователей ИИ мыслить нестандартно.
Другие исследователи активно разрабатывают совершенно иные подходы, отходя от использования исключительно человеческих тестов для измерения ИИ. Они исследуют новые методы, которые могли бы лучше уловить научную креативность ИИ (например, его способность генерировать новые гипотезы или дизайны экспериментов) или его способность к совместной работе с людьми в реальном мире, как, например, в проекте GPT-4V, который объединяет языковые и визуальные возможности. Представьте себе ИИ, который не просто отвечает на вопросы, но и активно участвует в научных открытиях, предлагая новые идеи и сотрудничая с учеными.
Консенсус относительно определения «интеллекта» ИИ и способов его измерения остается горячей темой для дебатов в научном сообществе, вызывая бурные дискуссии и рождая сотни новых исследований ежегодно. Однако, несмотря на свои ограничения, HLE является ценным и объективным способом измерения экспертизы ИИ в академических областях, предлагая четкую метрику для сравнения моделей и отслеживания их прогресса. Он показал нам, что, хотя ИИ невероятно быстро учится, до человеческого уровня глубокого понимания ему еще далеко.
В перспективе, как отмечают сами авторы, их проект в идеале должен сделать себя устаревшим, стимулируя разработку инновационных парадигм для оценки ИИ. Эти новые парадигмы позволят нам еще глубже понять и направить развитие этой преобразующей технологии, которая обещает изменить наш мир. В конце концов, наша цель — не просто создать «умный» ИИ, но и «мудрый» ИИ, способный служить человечеству, и для этого нам нужны инструменты, которые могут измерять не только его знания, но и его способность к рассуждению, этике и даже эмпатии. Путь к этому пониманию только начинается, и HLE — важная веха на этом захватывающем пути.


