В епоху стрімкого розвитку штучного інтелекту, коли великі мовні моделі (ВММ), такі як ChatGPT, Gemini та Claude, демонструють небачені раніше можливості — від миттєвого розв’язання найскладніших математичних рівнянь до точної діагностики захворювань та генерації робочого коду — виникає гостра, навіть пекуча, необхідність в адекватних інструментах для їхньої оцінки. Ці алгоритми не просто обробляють інформацію з безпрецедентною швидкістю; вони починають розвивати свого роду «здоровий глузд», здатність до міркування та розуміння контексту, що робить традиційні, часом наївні, методи тестування все менш і менш ефективними.
Уявіть собі, що ви — не просто машина для пошуку інформації, а мисляча сутність, яка стикається з питаннями, що вимагають не поверхневого пошуку в інтернеті, а глибокого розуміння контексту, міждисциплінарних знань і навіть інтуїції. Саме такі виклики кидають сучасним ВММ:
- Як перекласти римський напис з надгробної плити, враховуючи не лише особливості латини того періоду, а й регіональні діалекти, скорочення та культурний контекст похоронних обрядів? Це не просто лінгвістика, це археологія та історія.
- Скільки пар сухожиль підтримується однією кісткою у колібрі, і як це пов’язано з їхньою унікальною анатомією, що дозволяє їм зависати в повітрі та маневрувати з неймовірною точністю? Тут потрібне глибоке знання біології, біомеханіки та навіть фізики польоту.
- Які три ключові етапи складної реакції Фріделя-Крафтса, і чому вони протікають саме в такій послідовності, з урахуванням каталізаторів та енергетичних бар’єрів? Це вже не просто хімія, це тонке розуміння реакційної кінетики.
- Ґрунтуючись на новітніх дослідженнях тиберійської вимови, ідентифікуйте всі склади, що закінчуються приголосним звуком, у цьому уривку єврейського тексту, а також поясніть можливі винятки або діалектні варіації. Це завдання для лінгвіста-семітолога найвищого класу.
Ці питання — лише мала частина того інтелектуального лабіринту, з чим стикаються сучасні ВММ у новому бенчмарку, покликаному перевірити межі їхніх можливостей. Дослідники довгий час покладалися на стандартизовані тести для відстеження продуктивності ШІ, але в міру того, як передові алгоритми стали регулярно набирати понад 90 відсотків, а іноді й 95-99% на таких іспитах, старі бенчмарки швидко застарівають. Їхні обмеження полягають у тому, що багато з них можуть бути «зламані» ШІ через доступ до навчальних даних (так званий «витік даних» або data leakage) або здатність шукати відповіді онлайн, імітуючи розуміння, а не демонструючи його.
У відповідь на цю гостру проблему, міжнародна команда провідних вчених та експертів з різних галузей розробила свого роду новий SAT для мовних моделей, який отримав гучну та інтригуючу назву «Останній Іспит Людства» (Humanity’s Last Exam, HLE). Цей тест включає 2500 унікальних і надскладних питань, що охоплюють математику, гуманітарні та природничі науки, а також міждисциплінарні галузі. Кожне питання було ретельно розроблене та багаторазово перевірене експертами-людьми з усього світу, щоб забезпечити недвозначність відповідей та виключити можливість їхнього легкого знаходження в інтернеті або шляхом простого зіставлення патернів. Головна мета HLE — не виміряти «інтелект» ШІ в широкому сенсі, що досі є предметом філософських дебатів, а оцінити його продуктивність у вирішенні експертних академічних завдань. Це критично важливий крок для відстеження його прогресу в різних галузях досліджень та для розуміння, наскільки близько або далеко ШІ знаходиться від людського рівня розуміння та міркування.
Як влучно зазначили Кетрін Коллінз та Джошуа Тененбаум з Массачусетського технологічного інституту, які не брали безпосередньої участі в дослідженні: «HLE, безсумнівно, пропонує корисне вікно в поточну експертизу ШІ, надаючи цінні метрики. Але важливо пам’ятати, що це аж ніяк не останнє слово про людське мислення або здатність ШІ робити в нього внесок. Це лише один з етапів довгого шляху».
Динаміка Оцінки Штучного Інтелекту: Як ми вимірюємо невидиме?
За останні кілька років ШІ, здавалося б, постійно розумнішає. З кожним новим поколінням моделей ми бачимо все більш вражаючі демонстрації їхніх здібностей. Але що саме означає «розумний» для алгоритму, позбавленого свідомості, емоцій та життєвого досвіду? І, що ще важливіше, як ми можемо об’єктивно виміряти цей невловимий прогрес, коли сам ШІ вчиться адаптуватися і навіть «обманювати» наші системи оцінки?
Традиційно, одним з основних способів вимірювання «інтелекту» ШІ було тестування різних моделей або їхніх оновлених версій за допомогою стандартизованих бенчмарків. Ці колекції питань, як правило, охоплюють широке коло тем і вимагають не просто пошуку інформації в інтернеті, а й обширного уявлення про світ, а головне – здатності застосовувати це уявлення для відповіді на питання. Це дуже схоже на складання іспиту на водійські права: ви можете визубрити весь довідник правил та положень, але все одно повинні вміти визначити, хто має перевагу проїзду в реальній дорожній ситуації на перехресті з круговим рухом, навіть якщо правила здаються неоднозначними. Ви повинні демонструвати не лише знання, а й міркування, розуміння контексту та передбачення.
Проблеми Застарілих Бенчмарків: Чому старі правила більше не працюють?
Однак бенчмарки корисні лише доти, доки вони ставлять ШІ в глухий кут, виявляючи його слабкі сторони та стимулюючи подальший розвиток. Сучасні моделі стали надзвичайно вправними у складанні тестів, регулярно демонструючи майже ідеальні результати на існуючих бенчмарках. Наприклад, на таких тестах, як MMLU (Massive Multitask Language Understanding), який охоплює 57 різних областей знань, включаючи право, етику та фізику, моделі GPT-4 та Gemini Ultra вже у 2023 році показували результати вище 85-90%, тоді як ще кілька років тому середній бал ШІ становив близько 30-40%. На деяких підкатегоріях вони навіть перевершували середній бал людини, що робило ці тести практично марними для виявлення справжніх проривів у можливостях ШІ.
Як пояснили Коллінз та Тененбаум, проблема посилюється тим, що, крім навчання на всьому інтернеті (що вже саме по собі може включати тестові питання або їхні частини), сучасні системи ШІ часто можуть шукати інформацію онлайн під час тесту (так звана “retrieval-augmented generation” або RAG). Це дозволяє їм фактично «вчитися обманювати» систему оцінки, а не демонструвати істинне розуміння або генеративне знання. Уявіть собі студента, який складає іспит, маючи необмежений доступ до Google та Wikipedia. Чи будуть його високі бали відображати його власне розуміння або лише його здатність ефективно шукати інформацію? Саме ця дилема підриває довіру до старих бенчмарків.
Створення Humanity’s Last Exam (HLE): Новий рубіж для ШІ
Усвідомлюючи цю критичну потребу, Консорціум Авторів HLE, у співпраці з некомерційною організацією Center for AI Safety та компанією Scale AI, розпочав розробку нового бенчмарку, спеціально створеного, щоб заплутати навіть найпросунутіші ШІ. Вони звернулися до тисяч експертів з понад 50 країн світу, які представляють найрізноманітніші академічні дисципліни — від давньогрецької філології до квантової фізики та молекулярної біології. Мета була проста, але амбітна: зібрати питання університетського рівня за конкретними, глибоко спеціалізованими областями, які вимагають не просто фактологічних знань, а істинного експертного розуміння та міркування.
Питання HLE мають два основні типи відповідей, ретельно обраних для забезпечення об’єктивності та простоти оцінки:
- Один тип вимагає повного та точного збігу з фактичним рішенням. Це можуть бути складні математичні докази, конкретні історичні дати, хімічні формули або лінгвістичні розбори, де є лише одна абсолютно правильна відповідь. Такий підхід забезпечує однозначність та виключає суб’єктивність оцінки.
- Інший тип — це питання з множинним вибором, але з дуже тонко підібраними дистракторами (неправильними варіантами), які можуть здатися правдоподібними для неспеціаліста або ШІ, але легко відкидаються експертом. Це спрощує автоматичну оцінку результатів тесту, зберігаючи при цьому високий рівень складності.
Важливо зазначити, що команда свідомо уникала питань, що вимагають розлогих або відкритих відповідей, таких як написання наукової статті, філософського есе або юридичного висновку, де немає чітко «правильної» відповіді або об’єктивного способу її оцінити. Чому? Тому що мета HLE — виміряти конкретну, верифіковану академічну експертизу, а не креативність, суб’єктивні судження або літературні здібності, які вимагають зовсім інших підходів до оцінки.
Процес відбору питань був багатоступеневим та надзвичайно суворим. З приблизно 70 000 поданих питань, які спочатку були запропоновані експертами, лише мала частина — близько 3.5% — перейшла на наступний етап. Лише ті питання, що ставили в глухий кут кілька провідних моделей ШІ (таких як GPT-4, Claude 2, Gemini Pro) на попередніх тестах, були розглянуті далі. На другому етапі експерти оцінювали їхню корисність для оцінки ШІ, використовуючи суворі рекомендації, що забезпечило високу якість, актуальність та унікальність фінального набору питань. Це був не просто збір фактів, а створення інтелектуальних пасток для ШІ.
Майбутнє Оцінки ШІ: Що показують перші результати?
Команда HLE випустила в публічний доступ 2500 питань зі своєї обширної колекції, зберігаючи решту в найсуворішій таємниці. Це стратегічне рішення необхідне, щоб запобігти «накрутці» результатів системами ШІ, які могли б «запам’ятати» відповіді на раніше бачені питання, як це часто відбувалося зі старими бенчмарками. Частина питань, що залишилася, буде використовуватися для майбутніх, закритих тестувань, забезпечуючи постійну новизну та актуальність іспиту.
Коли тест був вперше представлений на початку 2025 року, провідні моделі ШІ від таких гігантів, як Google, OpenAI та Anthropic, набирали вкрай низькі бали — в діапазоні однозначних чисел, часто менше 3%. Це було шоком для багатьох, хто звик до їхніх вражаючих результатів на інших тестах. Наприклад, на перших ітераціях GPT-4o від OpenAI набрала всього 2.7%, а Gemini Ultra показала схожі результати. Ці цифри ясно демонстрували величезну прірву між здібностями ШІ та людським експертним рівнем у вирішенні по-справжньому складних, міждисциплінарних завдань.
Однак у міру того, як HLE привернув увагу компаній, що займаються ШІ, багато хто почав використовувати його як внутрішній бенчмарк для демонстрації продуктивності своїх нових релізів. І, дивно, але нові алгоритми показали деяке покращення. Наприклад, показник успіху GPT-5 (наступного покоління після GPT-4) збільшився до 25%. Це, безумовно, значний стрибок, що демонструє швидкий прогрес у розвитку ШІ. Проте, навіть провідні моделі все ще відчувають значні труднощі, і їхні результати далекі від того, що міг би показати середній студент-гуманітарій або природничник, який спеціалізується в даній області, який, ймовірно, набрав би 70-80% і вище. Ці результати демонструють, що, хоча ШІ прогресує з приголомшливою швидкістю, він все ще далекий від людського рівня розуміння, міркування та вирішення складних академічних завдань, що вимагають істинної експертизи.
Новий Стандарт чи Спірний Інструмент? Погляд з різних сторін
Подібно до тестів IQ та стандартизованих іспитів для вступу до коледжів, HLE, незважаючи на свою інноваційність та ретельну розробку, також зазнав критики. І хоча тест, безумовно, пропонує цінні переваги та проливає світло на поточні можливості ШІ, його обмеження не можуть бути проігноровані. Зрештою, жоден тест не може охопити всю повноту людського інтелекту, і ШІ тут не виняток.
Критика та Недоліки HLE: Що тест не може виміряти?
Одним з основних заперечень, яке часто звучить в академічних колах, є сама назва тесту — «Останній Іспит Людства». На думку деяких критиків, воно занадто «бомбастичне» і може ввести широку громадськість в оману щодо істинних можливостей ШІ порівняно з людськими експертами. Воно створює враження, що ШІ ось-ось досягне або перевершить людський інтелект загалом, хоча HLE вимірює лише вузький, хоча й глибокий, аспект академічної експертизи. Чи не веде це до зайвої тривожності або, навпаки, до необґрунтованого хайпу навколо ШІ?
Інші критики ставлять більш фундаментальне питання: що саме вимірює тест? Хоча очевидною відповіддю є експертиза в широкому діапазоні академічних областей та покращення моделей, як тонко зазначили Коллінз та Тененбаум, поточна структура HLE, з її акцентом на короткі та однозначні відповіді, «за своєю суттю обмежує найскладніші та найзначущіші питання, з якими стикаються людські експерти». Ці питання часто вимагають глибоких, вдумливих відповідей, часто міждисциплінарних, які важко або неможливо вловити за допомогою коротких відповідей або питань з множинним вибором. Істинна експертиза виходить далеко за рамки відповіді на існуючі питання. Вона включає в себе здатність до синтезу, критичного мислення, творчості та навіть оскарження самої постановки завдання.
Подумайте самі, що відрізняє справжнього експерта від простого ерудита? Людські експерти не тільки вирішують задані проблеми, а й здатні:
- Оцінювати осмисленість самого питання, наприклад, виявляти можливі неточності у формулюваннях, приховані припущення або навіть можливі відповіді, не передбачені укладачем тесту. Вони можуть сказати: «Це питання некоректне» або «Для відповіді потрібна додаткова інформація».
- Визначати ступінь своєї впевненості у своїх відповідях, що відображає метакогнітивні здібності – здатність усвідомлювати власні розумові процеси та їхні обмеження. Експерт може сказати: «Я майже впевнений у цій відповіді, але є невелика ймовірність помилки через…»
- Ставити нові, проривні питання, розширюючи межі пізнання та формулюючи проблеми, про існування яких ніхто раніше не підозрював. Саме так розвиваються наука та мистецтво.
Як проникливо написав Суббарао Камбхампаті, колишній президент Асоціації з розвитку штучного інтелекту: «Людство не міститься в жодному статичному тесті, але в нашій здатності постійно розвиватися як у постановці, так і у відповіді на питання, про які ми ніколи, у найсміливіших мріях, не думали, що будемо ставити — з покоління в покоління». Це глибоке зауваження підкреслює, що істинна міра інтелекту — це не обсяг накопичених знань, а здатність до безперервного навчання, адаптації та творчості.
Крім того, існує цілком реальний ризик, що зростання балів HLE може бути результатом не фундаментальних досягнень у моделі, а цілеспрямованого додаткового навчання алгоритму на загальнодоступних наборах даних. Це схоже на «зубріння» екзаменаційних питань минулих років перед тестом. Якщо модель просто «заучує» відповіді або патерни, специфічні для HLE, це не означає істинного набуття нею експертизи або «інтелекту». Це лише відображення її здатності оптимізуватися під конкретний бенчмарк, що може створити хибне відчуття прогресу. Це проблема, з якою стикалися багато бенчмарків у минулому, і HLE, незважаючи на всі зусилля, не повністю застрахований від неї.
Переваги та Майбутнє Оцінки ШІ: Дорога попереду
Незважаючи на ці недоліки та справедливу критику, команда HLE вітає дебати та продовжує вдосконалювати бенчмарк, визнаючи, що він є лише одним з інструментів у постійно розширюваному арсеналі методів оцінки. І це одна з ключових переваг HLE: він служить потужним каталізатором для розвитку більш складних та всебічних методів оцінки, змушуючи дослідників ШІ мислити нестандартно.
Інші дослідники активно розробляють абсолютно інші підходи, відходячи від використання виключно людських тестів для вимірювання ШІ. Вони досліджують нові методи, які могли б краще вловити наукову креативність ШІ (наприклад, його здатність генерувати нові гіпотези або дизайни експериментів) або його здатність до спільної роботи з людьми в реальному світі, як, наприклад, у проєкті GPT-4V, який об’єднує мовні та візуальні можливості. Уявіть собі ШІ, який не просто відповідає на питання, а й активно бере участь у наукових відкриттях, пропонуючи нові ідеї та співпрацюючи з вченими.
Консенсус щодо визначення «інтелекту» ШІ та способів його вимірювання залишається гарячою темою для дебатів у науковому співтоваристві, викликаючи бурхливі дискусії та народжуючи сотні нових досліджень щорічно. Однак, незважаючи на свої обмеження, HLE є цінним та об’єктивним способом вимірювання експертизи ШІ в академічних областях, пропонуючи чітку метрику для порівняння моделей та відстеження їхнього прогресу. Він показав нам, що, хоча ШІ неймовірно швидко вчиться, до людського рівня глибокого розуміння йому ще далеко.
У перспективі, як зазначають самі автори, їхній проєкт в ідеалі повинен зробити себе застарілим, стимулюючи розробку інноваційних парадигм для оцінки ШІ. Ці нові парадигми дозволять нам ще глибше зрозуміти та спрямувати розвиток цієї перетворюючої технології, яка обіцяє змінити наш світ. Зрештою, наша мета — не просто створити «розумний» ШІ, а й «мудрий» ШІ, здатний служити людству, і для цього нам потрібні інструменти, які можуть вимірювати не тільки його знання, а й його здатність до міркування, етики та навіть емпатії. Шлях до цього розуміння тільки починається, і HLE — важлива віха на цьому захоплюючому шляху.


