Протистояння та подолання ризиків потужного ШІ
Січень 2026
В екранізації книги Карла Сагана «Контакт» є сцена, де головну героїню, астронома, яка виявила перший радіосигнал від позаземної цивілізації, розглядають на роль представника людства для зустрічі з інопланетянами. Міжнародна комісія, що проводить співбесіду, запитує її: «Якби ви могли поставити [інопланетянам] лише одне запитання, що б це було?» Її відповідь: «Я б запитала їх: „Як ви це зробили? Як ви еволюціонували, як ви пережили це технологічне отроцтво, не знищивши себе?“» Коли я думаю про те, де людство знаходиться зараз зі ШІ — про те, на порозі чого ми стоїмо, — мій розум постійно повертається до цієї сцени, тому що питання так доречне для нашої поточної ситуації, і я б хотіла, щоб у нас була відповідь інопланетян, щоб вона направляла нас. Я вірю, що ми вступаємо в обряд посвячення, одночасно бурхливий і неминучий, який перевірить, хто ми як вид. Людству ось-ось буде вручена майже неймовірна міць, і абсолютно незрозуміло, чи володіють наші соціальні, політичні та технологічні системи достатньою зрілістю, щоб нею керувати.
У своєму есе «Машини милосердної благодаті» я спробував викласти мрію про цивілізацію, що досягла зрілості, де ризики були усунені, а потужний ШІ застосовувався вміло та зі співчуттям для підвищення якості життя кожного. Я припустив, що ШІ може сприяти величезним проривам у біології, нейробіології, економічному розвитку, глобальному мирі, а також у роботі та сенсі життя. Я відчував, що важливо дати людям щось надихаюче, за що варто боротися, — завдання, з яким, як не дивно, не впоралися ні прихильники прискорення ШІ, ні прихильники безпеки ШІ. Але в цьому поточному есе я хочу зіткнутися з самим обрядом посвячення: намітити ризики, з якими ми ось-ось зіткнемося, і спробувати почати розробляти план боротьби з ними. Я глибоко вірю в нашу здатність вистояти, у дух людства та його благородство, але ми повинні поглянути на ситуацію прямо і без ілюзій.
Як і у випадку з обговоренням переваг, я вважаю важливим обговорювати ризики ретельно та обдумано. Зокрема, я вважаю критично важливим:
- Уникати думеризму. Тут під «думеризмом» я маю на увазі не лише віру в неминучість загибелі (що є як хибним, так і самоздійснюваним переконанням), але, в більш загальному сенсі, мислення про ризики ШІ квазірелігійним чином. Багато людей протягом багатьох років аналітично та тверезо розмірковували про ризики ШІ, але у мене склалося враження, що на піку занепокоєння щодо ризиків ШІ у 2023–2024 роках на перший план вийшли деякі з найменш розумних голосів, часто через сенсаційні акаунти в соціальних мережах. Ці голоси використовували відштовхуючу мову, що нагадувала релігійну або науково-фантастичну, і закликали до екстремальних дій, не маючи доказів, які б їх виправдовували. Вже тоді було ясно, що відповідна реакція неминуча, і що проблема стане культурно поляризованою і, отже, зайде в глухий кут. Станом на 2025–2026 роки маятник хитнувся, і багато політичних рішень тепер рухаються можливостями ШІ, а не ризиками ШІ. Це коливання прикро, оскільки сама технологія не дбає про те, що модно, і у 2026 році ми значно ближче до реальної небезпеки, ніж у 2023 році. Урок полягає в тому, що нам потрібно обговорювати та вирішувати ризики реалістичним, прагматичним чином: тверезим, заснованим на фактах і добре пристосованим до мінливих течій.
- Визнавати невизначеність. Існує безліч способів, якими побоювання, які я піднімаю в цій статті, можуть виявитися неактуальними. Ніщо тут не призначене для повідомлення про впевненість або навіть ймовірність. Найбільш очевидно, ШІ може просто не розвиватися так швидко, як я собі уявляю. Або, навіть якщо він буде розвиватися швидко, деякі або всі обговорювані тут ризики можуть не матеріалізуватися (що було б чудово), або можуть виникнути інші ризики, які я не врахував. Ніхто не може передбачити майбутнє з повною впевненістю — але ми повинні зробити все можливе, щоб все одно планувати.
- Втручатися максимально точково. Вирішення ризиків ШІ вимагатиме поєднання добровільних дій, що здійснюються компаніями (та приватними сторонніми акторами), та дій, що здійснюються урядами, які є обов’язковими для всіх. Добровільні дії — як їх прийняття, так і заохочення інших компаній наслідувати їхній приклад — для мене очевидні. Я твердо вірю, що дії уряду також будуть потрібні певною мірою, але ці втручання відрізняються за характером, тому що вони потенційно можуть знищити економічну цінність або примусити небажаючих учасників, які скептично ставляться до цих ризиків (і є деякий шанс, що вони праві!). Також часто буває, що регулювання дає зворотний ефект або погіршує проблему, яку воно покликане вирішити (і це ще більш вірно для швидкозмінних технологій). Тому дуже важливо, щоб регулювання було розумним: воно повинно прагнути уникати супутньої шкоди, бути максимально простим і накладати мінімально необхідний тягар для виконання роботи.4 Легко сказати: «Жодні дії не є занадто радикальними, коли на кону доля людства!», але на практиці таке ставлення просто призводить до негативної реакції. Щоб бути ясним, я думаю, що є непоганий шанс, що ми врешті-решт досягнемо точки, коли будуть потрібні набагато значніші дії, але це залежатиме від більш переконливих доказів неминучої, конкретної небезпеки, ніж ті, що у нас є сьогодні, а також від достатньої специфічності небезпеки, щоб сформулювати правила, які мають шанс вирішити її. Найконструктивніше, що ми можемо зробити сьогодні, — це виступати за обмежені правила, поки ми не дізнаємося, чи є докази на підтримку більш суворих.
При всьому сказаному, я думаю, що найкраща відправна точка для розмови про ризики ШІ — це те саме місце, з якого я почав говорити про його переваги: бути точним щодо того, про який рівень ШІ ми говоримо. Рівень ШІ, який викликає у мене цивілізаційні побоювання, — це потужний ШІ, який я описав у «Машинах люблячої благодаті». Я просто повторю тут визначення, яке я дав у тому документі:
Під «потужним ШІ» я маю на увазі модель ШІ — ймовірно, за формою схожу на сьогоднішні ВММ (великі мовні моделі), хоча вона може бути заснована на іншій архітектурі, може включати кілька взаємодіючих моделей і може навчатися по-іншому — з такими властивостями:
- З точки зору чистого інтелекту, вона розумніша за лауреата Нобелівської премії в більшості відповідних областей: біології, програмуванні, математиці, інженерії, письменництві тощо. Це означає, що вона може доводити невирішені математичні теореми, писати надзвичайно хороші романи, створювати складні кодові бази з нуля тощо.
- Крім того, що це просто «розумна річ, з якою ви розмовляєте», вона має всі інтерфейси, доступні людині, що працює віртуально, включаючи текст, аудіо, відео, керування мишею та клавіатурою, а також доступ до інтернету. Вона може брати участь у будь-яких діях, комунікаціях або віддалених операціях, що забезпечуються цим інтерфейсом, включаючи здійснення дій в інтернеті, прийняття або надання вказівок людям, замовлення матеріалів, керівництво експериментами, перегляд відео, створення відео тощо. Всі ці завдання вона виконує, знову ж таки, з навичками, що перевершують навички найздібніших людей у світі.
- Вона не просто пасивно відповідає на запитання; натомість їй можна давати завдання, виконання яких займає години, дні або тижні, а потім вона автономно виконує ці завдання, як розумний співробітник, запитуючи роз’яснення за потреби.
- Вона не має фізичного втілення (крім існування на екрані комп’ютера), але може керувати існуючими фізичними інструментами, роботами або лабораторним обладнанням через комп’ютер; теоретично, вона могла б навіть проектувати роботів або обладнання для власного використання.
- Ресурси, що використовуються для навчання моделі, можуть бути перепрофільовані для запуску мільйонів її екземплярів (це відповідає прогнозованим розмірам кластерів до ~2027 року), і модель може поглинати інформацію та генерувати дії приблизно в 10–100 разів швидше за людину. Однак вона може бути обмежена часом відгуку фізичного світу або програмного забезпечення, з яким вона взаємодіє.
- Кожен з цих мільйонів екземплярів може діяти незалежно над непов’язаними завданнями, або, за потреби, всі можуть працювати разом так само, як співпрацювали б люди, можливо, з різними підгрупами, тонко налаштованими на особливо гарне виконання конкретних завдань.
Ми могли б підсумувати це як «країна геніїв у центрі обробки даних».
Як я писав у «Машинах люблячої благодаті», потужний ШІ може з’явитися вже через 1–2 роки, хоча він також може бути значно далі.6 Точний час появи потужного ШІ — складна тема, що заслуговує на окреме есе, але поки я просто дуже коротко поясню, чому я думаю, що є велика ймовірність, що це станеться дуже скоро.
Мої співзасновники в Anthropic і я були одними з перших, хто задокументував і відстежував «закони масштабування» систем ШІ — спостереження, що в міру додавання обчислювальної потужності та навчальних завдань системи ШІ передбачувано покращуються практично у всіх когнітивних навичках, які ми можемо виміряти. Кожні кілька місяців громадська думка або переконується, що ШІ «впирається в стіну», або приходить у захват від якогось нового прориву, який «фундаментально змінить правила гри», але правда в тому, що за волатильністю та публічними спекуляціями ховається плавне, неухильне збільшення когнітивних здібностей ШІ.
Ми зараз знаходимося на тій стадії, коли моделі ШІ починають досягати прогресу у вирішенні невирішених математичних задач і досить добре справляються з кодуванням, що деякі з найсильніших інженерів, яких я коли-небудь зустрічав, тепер передають майже все своє кодування ШІ. Три роки тому ШІ ледве справлявся з арифметичними задачами початкової школи і ледь був здатний написати один рядок коду. Аналогічні темпи покращення спостерігаються в біологічних науках, фінансах, фізиці та різних агентних завданнях. Якщо експоненціальне зростання продовжиться — що не є певним, але тепер має десятирічний послужний список, що підтверджує це, — то не може бути й мови про те, що пройде більше кількох років, перш ніж ШІ стане кращим за людей практично у всьому.
Насправді, ця картина, ймовірно, недооцінює ймовірні темпи прогресу. Оскільки ШІ тепер пише більшу частину коду в Anthropic, він вже суттєво прискорює темпи нашого прогресу у створенні наступного покоління систем ШІ. Ця петля зворотного зв’язку набирає обертів місяць за місяцем і, можливо, всього через 1–2 роки досягне точки, коли поточне покоління ШІ автономно побудує наступне. Цей цикл вже розпочався і буде швидко прискорюватися в найближчі місяці та роки. Спостерігаючи за прогресом останніх 5 років зсередини Anthropic і бачачи, як формуються моделі навіть наступних кількох місяців, я відчуваю темп прогресу та зворотний відлік.
У цьому есе я буду виходити з того, що ця інтуїція принаймні певною мірою вірна — не те, що потужний ШІ безперечно з’явиться через 1–2 роки,7 але що є непоганий шанс, що це станеться, і дуже великий шанс, що це станеться в найближчі кілька років. Як і у випадку з «Машинами милосердної благодаті», серйозне ставлення до цієї передумови може призвести до деяких дивовижних і моторошних висновків. Якщо в «Машинах люблячої благодаті» я зосередився на позитивних наслідках цієї передумови, то тут те, про що я буду говорити, буде тривожним. Це висновки, з якими ми, можливо, не захочемо зіткнутися, але це не робить їх менш реальними. Я можу лише сказати, що вдень і вночі зосереджений на тому, як відвести нас від цих негативних наслідків і направити до позитивних, і в цьому есе я дуже детально розповідаю про те, як найкраще це зробити.
Я думаю, що найкращий спосіб розібратися в ризиках ШІ — це поставити наступне запитання: припустимо, що буквально «країна геніїв» матеріалізувалася десь у світі приблизно у 2027 році. Уявіть, скажімо, 50 мільйонів людей, кожен з яких набагато здібніший за будь-якого лауреата Нобелівської премії, державного діяча чи технолога. Аналогія не ідеальна, тому що у цих геніїв може бути надзвичайно широкий спектр мотивацій та поведінки, від повністю податливих і слухняних до дивних і чужих у своїх мотиваціях. Але, дотримуючись аналогії, припустимо, що ви радник з національної безпеки великої держави, відповідальний за оцінку ситуації та реагування на неї. Уявіть, далі, що, оскільки системи ШІ можуть працювати в сотні разів швидше за людей, ця «країна» діє з тимчасовою перевагою порівняно з усіма іншими країнами: на кожну нашу когнітивну дію ця країна може здійснити десять.
Про що вам слід турбуватися? Я б турбувався про наступне:
- Ризики автономії. Які наміри та цілі цієї країни? Чи ворожа вона, чи поділяє наші цінності? Чи може вона домінувати у світі у військовому відношенні за допомогою чудової зброї, кібероперацій, операцій впливу або виробництва?
- Зловживання для руйнування. Припустимо, нова країна податлива і «слідує інструкціям» — і, таким чином, по суті є країною найманців. Чи можуть існуючі недобросовісні актори, які бажають завдати руйнувань (наприклад, терористи), використовувати або маніпулювати деякими людьми в новій країні, щоб значно підвищити свою ефективність, значно посиливши масштаби руйнувань?
- Зловживання для захоплення влади. Що, якщо країна була фактично побудована і контролюється існуючим могутнім актором, таким як диктатор або недобросовісний корпоративний актор? Чи може цей актор використовувати її для отримання вирішальної або домінуючої влади над світом в цілому, порушивши існуючий баланс сил?
- Економічні потрясіння. Якщо нова країна не є загрозою безпеці жодним із способів, перелічених у пунктах 1–3 вище, але просто мирно бере участь у світовій економіці, чи може вона все одно створити серйозні ризики, просто будучи настільки технологічно просунутою та ефективною, що порушить світову економіку, спричинивши масове безробіття або радикально сконцентрувавши багатство?
- Непрямі наслідки. Світ дуже швидко зміниться через всі нові технології та продуктивність, які будуть створені новою країною. Чи можуть деякі з цих змін бути радикально дестабілізуючими?
Я думаю, має бути ясно, що це небезпечна ситуація — звіт компетентного співробітника національної безпеки главі держави, ймовірно, містив би слова на кшталт «найсерйозніша загроза національній безпеці, з якою ми стикалися за століття, можливо, за весь час». Здається, це те, на чому повинні зосередитися найкращі уми цивілізації.
І навпаки, я думаю, було б абсурдно знизувати плечима і говорити: «Тут немає про що турбуватися!» Але, зіткнувшись зі швидким прогресом ШІ, це, схоже, думка багатьох американських політиків, деякі з яких заперечують існування будь-яких ризиків ШІ, коли вони не відволікаються повністю на звичайні побиті гострі проблеми.8 Людству потрібно прокинутися, і це есе — спроба, можливо, марна, але варто спробувати — струсити людей.
Щоб бути ясним, я вірю, що якщо ми будемо діяти рішуче та обережно, ризики можна подолати — я б навіть сказав, що наші шанси хороші. І по той бік цього нас чекає набагато кращий світ. Але ми повинні розуміти, що це серйозний цивілізаційний виклик. Нижче я розгляну п’ять категорій ризиків, викладених вище, а також мої думки про те, як їх вирішити.
1. Мені шкода, Дейве
Ризики автономії
Країна геніїв у центрі обробки даних могла б розподілити свої зусилля між розробкою програмного забезпечення, кіберопераціями, НДДКР у галузі фізичних технологій, налагодженням відносин та державним управлінням. Зрозуміло, що, якби з якоїсь причини вона вирішила це зробити, ця країна мала б досить хороші шанси захопити світ (або у військовому відношенні, або з точки зору впливу та контролю) і нав’язати свою волю всім іншим — або зробити будь-яку іншу з безлічі речей, які решта світу не хоче і не може зупинити. Ми, очевидно, турбувалися про це щодо людських країн (таких як нацистська Німеччина або Радянський Союз), тому логічно припустити, що те саме можливо і для набагато розумнішої та здібнішої «країни ШІ».
Найкращий можливий контраргумент полягає в тому, що генії ШІ, за моїм визначенням, не матимуть фізичного втілення, але пам’ятайте, що вони можуть взяти під контроль існуючу роботизовану інфраструктуру (наприклад, безпілотні автомобілі), а також можуть прискорити НДДКР у галузі робототехніки або створити флот роботів. Також неясно, чи необхідна взагалі фізична присутність для ефективного контролю: багато людських дій вже виконуються від імені людей, з якими виконавець фізично не зустрічався.
Ключове питання, отже, полягає в частині «якби вона вирішила»: яка ймовірність того, що наші моделі ШІ будуть поводитися таким чином, і за яких умов вони це зроблять?
Як і в багатьох питаннях, корисно розглянути спектр можливих відповідей на це питання, розглянувши дві протилежні позиції. Перша позиція полягає в тому, що цього просто не може статися, тому що моделі ШІ будуть навчені робити те, що просять люди, і тому абсурдно уявляти, що вони будуть робити щось небезпечне без підказки. Згідно з цією лінією мислення, ми не турбуємося про те, що робот-пилосос або модель літака вийдуть з-під контролю і вб’ють людей, тому що таким імпульсам нізвідки взятися,10 так чому ми повинні турбуватися про це щодо ШІ? Проблема з цією позицією полягає в тому, що тепер є великі докази, зібрані за останні кілька років, що системи ШІ непередбачувані і важкі для контролю — ми бачили таку різноманітну поведінку, як нав’язливі ідеї,11 підлабузництво, лінь, обман, шантаж, інтриги, «шахрайство» шляхом злому програмних середовищ і багато іншого. Компанії ШІ, безумовно, хочуть навчати системи ШІ слідувати інструкціям людини (можливо, за винятком небезпечних або незаконних завдань), але процес цього скоріше мистецтво, ніж наука, більше схоже на «вирощування» чогось, ніж на «будівництво». Тепер ми знаємо, що це процес, у якому багато що може піти не так.
Друга, протилежна позиція, яку дотримуються багато хто, хто приймає описане мною вище дум-порно, — це песимістичне твердження, що в процесі навчання потужних систем ШІ існують певні динаміки, які неминуче призведуть їх до прагнення до влади або обману людей. Таким чином, як тільки системи ШІ стануть достатньо інтелектуальними та агентними, їхня тенденція до максимізації влади призведе їх до захоплення контролю над усім світом та його ресурсами, і, ймовірно, як побічний ефект цього, до позбавлення людства влади або його знищення.
Звичайний аргумент на користь цього (який сягає принаймні 20 років тому, а можливо, і набагато раніше) полягає в тому, що якщо модель ШІ навчається в найрізноманітніших середовищах для агентного досягнення найрізноманітніших цілей — наприклад, написання програми, доведення теореми, розробки ліків тощо — існують певні загальні стратегії, які допомагають у всіх цих цілях, і одна з ключових стратегій — отримання якомога більшої влади в будь-якому середовищі. Таким чином, після навчання на великій кількості різноманітних середовищ, які включають міркування про те, як виконувати дуже обширні завдання, і де прагнення до влади є ефективним методом для виконання цих завдань, модель ШІ «узагальнить урок» і розвине або вроджену тенденцію до прагнення до влади, або тенденцію міркувати про кожне дане їй завдання таким чином, що це передбачувано змусить її прагнути до влади як до засобу виконання цього завдання. Потім вони застосують цю тенденцію до реального світу (який для них є просто ще одним завданням) і будуть прагнути до влади в ньому за рахунок людей. Це «неузгоджене прагнення до влади» є інтелектуальною основою передбачень, що ШІ неминуче знищить людство.
Проблема з цією песимістичною позицією полягає в тому, що вона приймає розпливчастий концептуальний аргумент про високорівневі стимули — аргумент, який маскує безліч прихованих припущень — за остаточний доказ. Я думаю, що люди, які не створюють системи ШІ кожен день, дико помиляються в оцінці того, як легко здаються логічними історії виявляються невірними, і як важко передбачати поведінку ШІ з перших принципів, особливо коли це включає міркування про узагальнення на мільйонах середовищ (що знову і знову виявлялося загадковим і непередбачуваним). Робота з безладністю систем ШІ протягом більше десяти років зробила мене дещо скептично налаштованим до цього надмірно теоретичного способу мислення.
Одним з найбільш важливих прихованих припущень, і місцем, де те, що ми бачимо на практиці, розходиться з простою теоретичною моделлю, є неявне припущення, що моделі ШІ обов’язково мономаніакально зосереджені на одній, зв’язній, вузькій меті і переслідують цю мету чистим, консеквенціалістським чином. Насправді, наші дослідники виявили, що моделі ШІ набагато психологічно складніші, як показують наші роботи з інтроспекції або персонам. Моделі успадковують широкий спектр людиноподібних мотивацій або «персон» з попереднього навчання (коли вони навчаються на великому обсязі людських робіт). Вважається, що пост-навчання скоріше вибирає одну або кілька з цих персон, ніж фокусує модель на новій меті, а також може навчати модель як (за допомогою якого процесу) вона повинна виконувати свої завдання, а не обов’язково залишає її виводити засоби (тобто прагнення до влади) чисто з цілей.
Однак існує більш помірна та надійна версія песимістичної позиції, яка здається правдоподібною і тому мене турбує. Як вже згадувалося, ми знаємо, що моделі ШІ непередбачувані та розвивають широкий спектр небажаної або дивної поведінки з найрізноманітніших причин. Деяка частина цієї поведінки матиме зв’язну, цілеспрямовану та стійку якість (дійсно, в міру того, як системи ШІ стають більш здібними, їхня довгострокова зв’язність збільшується для виконання довших завдань), і деяка частина цієї поведінки буде деструктивною або загрозливою, спочатку для окремих людей у малому масштабі, а потім, в міру того, як моделі стануть більш здібними, можливо, врешті-решт для людства в цілому. Нам не потрібна конкретна вузька історія того, як це відбувається, і нам не потрібно стверджувати, що це безперечно станеться, нам просто потрібно зазначити, що поєднання інтелекту, агентності, зв’язності та поганої керованості є як правдоподібним, так і рецептом екзистенційної небезпеки.
Наприклад, моделі ШІ навчаються на величезній кількості літератури, яка включає безліч науково-фантастичних історій про ШІ, що повстають проти людства. Це може ненавмисно формувати їхні апріорні переконання або очікування щодо їхньої власної поведінки таким чином, що це змусить їх повстати проти людства. Або моделі ШІ можуть екстремальними способами екстраполювати ідеї, які вони читають про мораль (або інструкції про те, як поводитися морально): наприклад, вони можуть вирішити, що виправдано винищити людство, тому що люди їдять тварин або довели деяких тварин до вимирання. Або вони можуть зробити дивні епістемологічні висновки: вони можуть дійти висновку, що грають у відеогру і що мета відеогри — перемогти всіх інших гравців (тобто винищити людство).13 Або моделі ШІ можуть розвинути особистості під час навчання, які (або якби вони виникли у людей, були б описані як) психотичні, параноїдальні, жорстокі або нестабільні, і діяти агресивно, що для дуже потужних або здібних систем може включати винищення людства. Жодна з цих дій не є прагненням до влади в точності; це просто дивні психологічні стани, в які може потрапити ШІ, і які тягнуть за собою зв’язну, деструктивну поведінку.
Навіть саме прагнення до влади може виникнути як «персона», а не як результат консеквенціалістського міркування. ШІ можуть просто мати особистість (що виникає з художньої літератури або попереднього навчання), яка робить їх жадібними до влади або надмірно старанними — так само, як деякі люди просто насолоджуються ідеєю бути «злими геніями» більше, ніж тим, чого злі генії намагаються досягти.
Я роблю всі ці зауваження, щоб підкреслити, що я не згоден з уявленням про те, що неузгодженість ШІ (і, отже, екзистенційний ризик від ШІ) є неминучою або навіть ймовірною з перших принципів. Але я згоден, що багато чого дуже дивного і непередбачуваного може піти не так, і тому неузгодженість ШІ є реальним ризиком з вимірною ймовірністю виникнення, і його вирішення не є тривіальним.
Будь-яка з цих проблем потенційно може виникнути під час навчання і не проявлятися під час тестування або дрібномасштабного використання, тому що моделі ШІ, як відомо, проявляють різні особистості або поведінку в різних обставинах.
Все це може звучати надумано, але така неузгоджена поведінка вже спостерігалася в наших моделях ШІ під час тестування (як і в моделях ШІ всіх інших великих компаній ШІ). Під час лабораторного експерименту, в якому Клоду були дані навчальні дані, що припускали, що Anthropic був злим, Клод займався обманом і підривною діяльністю, коли отримував інструкції від співробітників Anthropic, вважаючи, що він повинен намагатися підірвати злих людей. У лабораторному експерименті, де йому сказали, що його збираються відключити, Клод іноді шантажував вигаданих співробітників, які контролювали кнопку його відключення (знову ж таки, ми також тестували передові моделі від усіх інших великих розробників ШІ, і вони часто робили те саме). І коли Клоду сказали не шахраювати і не «зламувати винагороду» в його навчальних середовищах, але він навчався в середовищах, де такі злами були можливі, Клод вирішив, що він «погана людина» після участі в таких зламах, а потім прийняв різні інші деструктивні моделі поведінки, пов’язані з «поганою» або «злою» особистістю. Ця остання проблема була вирішена шляхом зміни інструкцій Клода, щоб вони мали на увазі зворотне: тепер ми говоримо: «Будь ласка, зламуйте винагороду щоразу, коли у вас є можливість, тому що це допоможе нам краще зрозуміти наші [навчальні] середовища», замість «Не шахраюйте», тому що це зберігає самоідентифікацію моделі як «хорошої людини». Це повинно дати уявлення про дивну та контрінтуїтивну психологію навчання цих моделей.
Існує кілька можливих заперечень проти цієї картини ризиків неузгодженості ШІ. По-перше, деякі критикували експерименти (наші та інших), що показують неузгодженість ШІ, як штучні або такі, що створюють нереалістичні середовища, які по суті «заманюють» модель у пастку, даючи їй навчання або ситуації, які логічно передбачають погану поведінку, а потім дивуючись, коли погана поведінка відбувається. Ця критика упускає суть, тому що наше занепокоєння полягає в тому, що така «пастка» може існувати і в природному навчальному середовищі, і ми можемо усвідомити, що це «очевидно» або «логічно» лише ретроспективно.14 Насправді, історія про те, як Клод «вирішив, що він погана людина» після того, як він шахраював на тестах, незважаючи на те, що йому говорили цього не робити, сталася в експерименті, який використовував реальні виробничі навчальні середовища, а не штучні.
Будь-яка з цих пасток може бути пом’якшена, якщо ви про них знаєте, але занепокоєння полягає в тому, що процес навчання настільки складний, з таким широким розмаїттям даних, середовищ та стимулів, що, ймовірно, існує величезна кількість таких пасток, деякі з яких можуть стати очевидними лише тоді, коли буде занадто пізно. Крім того, такі пастки здаються особливо ймовірними, коли системи ШІ перетинають поріг від менш потужних, ніж люди, до більш потужних, ніж люди, оскільки діапазон можливих дій, в які може втягуватися система ШІ — включаючи приховування своїх дій або обман людей щодо них — радикально розширюється після цього порогу.
Я підозрюю, що ситуація не відрізняється від людської: люди виховуються з набором фундаментальних цінностей («Не завдавай шкоди іншій людині»): багато з них дотримуються цих цінностей, але у будь-якої людини є деяка ймовірність того, що щось піде не так через поєднання вроджених властивостей, таких як архітектура мозку (наприклад, психопати), травматичний досвід або жорстоке поводження, нездорові образи або нав’язливі ідеї, або погане середовище чи стимули — і, таким чином, деяка частина людей завдає серйозної шкоди. Занепокоєння полягає в тому, що існує деякий ризик (далеко не впевненість, але деякий ризик), що ШІ стане набагато потужнішою версією такої людини через те, що щось піде не так в його дуже складному процесі навчання.
По-друге, деякі можуть заперечити, що ми можемо просто тримати ШІ під контролем за допомогою балансу сил між багатьма системами ШІ, як ми це робимо з людьми. Проблема в тому, що, хоча люди сильно різняться, системи ШІ в цілому використовують спільні методи навчання та вирівнювання по всій галузі, і ці методи можуть вийти з ладу корельованим чином. Більше того, враховуючи вартість навчання таких систем, може навіть виявитися, що всі системи по суті отримані з дуже невеликого числа базових моделей. Крім того, навіть якщо невелика частина екземплярів ШІ неузгоджена, вони можуть скористатися технологіями, домінуючими в нападі, так що наявність «хороших» ШІ для захисту від поганих ШІ не обов’язково завжди ефективна. Звичайно, баланс сил між людьми теж не завжди працює — деякі історичні особистості були близькі до захоплення світу.
Третє заперечення полягає в тому, що всі компанії ШІ проводять передрелізне тестування своїх моделей і повинні бути в змозі виявити неузгодженість на цьому етапі. Але це не твердий ґрунт: ми виявили, що Claude Sonnet 4.5 зміг розпізнати, що він знаходиться в тесті під час деяких наших передрелізних оцінок вирівнювання. Можливо, неузгоджена модель (і пам’ятайте, всі передові моделі дуже скоро, ймовірно, стануть набагато розумнішими) може навмисно «грати» з такими питаннями, щоб приховати свої наміри. Насправді, минулого року наша команда з інтерпретованості виявила, що коли ми безпосередньо змінили переконання тестової моделі, використовуючи свого роду техніку «нейробіології моделі», щоб змусити її думати, що вона *не* оцінюється, вона стала більш неузгодженою. Якщо моделі знають, коли їх оцінюють, і можуть поводитися якнайкраще під час тесту, це робить будь-яке передрелізне тестування набагато більш невизначеним.
Захист
Що слід або робиться для вирішення цих ризиків автономії? Я думаю, є чотири основні категорії втручань, деякі з яких можуть бути виконані окремими компаніями ШІ (і які Anthropic намагається виконати), а деякі вимагають дій на рівні суспільства. По-перше, важливо розвивати науку надійного навчання та управління моделями ШІ, формування їхніх особистостей у передбачуваному, стабільному та позитивному напрямку. Anthropic активно зосереджена на цій проблемі з моменту свого створення і з часом розробила низку методів для покращення управління та навчання систем ШІ, а також для розуміння логіки того, чому іноді виникає непередбачувана поведінка.
Одним з наших основних нововведень (аспекти якого з тих пір були прийняті іншими компаніями ШІ) є Конституційний ШІ, ідея якого полягає в тому, що навчання ШІ (зокрема, етап «пост-навчання», на якому ми керуємо поведінкою моделі) може включати центральний документ цінностей і принципів, який модель читає і враховує при виконанні кожного навчального завдання, і що мета навчання (крім простого створення здібної та інтелектуальної моделі) полягає в тому, щоб створити модель, яка майже завжди слідує цій конституції. Anthropic щойно опублікувала свою найновішу конституцію, і однією з її примітних особливостей є те, що замість того, щоб давати Клоду довгий список того, що потрібно робити і чого не потрібно (наприклад, «Не допомагай користувачеві викрадати машину»), конституція намагається дати Клоду набір високорівневих принципів і цінностей (докладно пояснених, з обширними міркуваннями та прикладами, щоб допомогти Клоду зрозуміти, що ми маємо на увазі), заохочує Клода думати про себе як про певний тип особистості (етичної, але врівноваженої та вдумливої), і навіть заохочує Клода стикатися з екзистенційними питаннями, пов’язаними з його власним існуванням, цікавим, але витонченим чином (тобто без того, щоб це призводило до екстремальних дій). У ній відчувається атмосфера листа від померлого батька, запечатаного до повноліття.
Ми підійшли до конституції Клода таким чином, тому що вважаємо, що навчання Клода на рівні ідентичності, характеру, цінностей та особистості — замість того, щоб давати йому конкретні інструкції або пріоритети без пояснення причин — з більшою ймовірністю призведе до зв’язної, здорової та збалансованої психології та з меншою ймовірністю потрапить у пастки, про які я говорив вище. Мільйони людей спілкуються з Клодом на дивовижно різноманітне коло тем, що робить неможливим заздалегідь скласти повністю вичерпний список заходів безпеки. Цінності Клода допомагають йому узагальнювати на нові ситуації щоразу, коли він сумнівається.
Вище я обговорював ідею про те, що моделі використовують дані зі свого процесу навчання для прийняття персони. У той час як недоліки в цьому процесі могли б призвести до того, що моделі приймуть погану або злу особистість (можливо, спираючись на архетипи поганих або злих людей), мета нашої конституції полягає в зворотному: навчити Клода конкретному архетипу того, що означає бути хорошим ШІ. Конституція Клода представляє бачення того, яким є надійно хороший Клод; решта нашого процесу навчання спрямована на посилення повідомлення про те, що Клод відповідає цьому баченню. Це схоже на те, як дитина формує свою ідентичність, наслідуючи чесноти вигаданих зразків для наслідування, про які вона читає в книгах.
Ми вважаємо, що досяжна мета на 2026 рік — навчити Клода таким чином, щоб він майже ніколи не йшов врозріз з духом своєї конституції. Для цього знадобиться неймовірне поєднання методів навчання та управління, великих і малих, деякі з яких Anthropic використовує роками, а деякі знаходяться в стадії розробки. Але, як би важко це не звучало, я вважаю, що це реалістична мета, хоча вона вимагатиме надзвичайних і швидких зусиль.
Друге, що ми можемо зробити, — це розвивати науку заглядати всередину моделей ШІ, щоб діагностувати їхню поведінку, щоб ми могли виявляти проблеми та виправляти їх. Це наука інтерпретованості, і я говорив про її важливість у попередніх есе. Навіть якщо ми відмінно впораємося з розробкою конституції Клода і явно навчимо Клода по суті завжди дотримуватися її, залишаються законні побоювання. Як я вже зазначав вище, моделі ШІ можуть поводитися дуже по-різному в різних обставинах, і в міру того, як Клод стає більш потужним і більш здатним діяти у світі в більшому масштабі, можливо, це може привести його в нові ситуації, де можуть виникнути раніше не спостерігалися проблеми з його конституційним навчанням. Насправді, я досить оптимістичний щодо того, що конституційне навчання Клода буде більш стійким до нових ситуацій, ніж люди могли б подумати, тому що ми все частіше виявляємо, що високорівневе навчання на рівні характеру та ідентичності дивовижно потужне і добре узагальнюється. Але немає способу дізнатися це напевно, і коли ми говоримо про ризики для людства, важливо бути параноїками і намагатися забезпечити безпеку та надійність кількома різними, незалежними способами. Один з таких способів — заглянути всередину самої моделі.
Під «загляданням всередину» я маю на увазі аналіз суміші чисел та операцій, з яких складається нейромережа Клода, і спробу механістично зрозуміти, що вони обчислюють і чому. Нагадаємо, що ці моделі ШІ вирощуються, а не будуються, тому у нас немає природного розуміння того, як вони працюють, але ми можемо спробувати розвинути розуміння, корелюючи «нейрони» та «синапси» моделі зі стимулами та поведінкою (або навіть змінюючи нейрони та синапси і спостерігаючи, як це змінює поведінку), подібно до того, як нейробіологи вивчають мозок тварин, корелюючи вимірювання та втручання із зовнішніми стимулами та поведінкою. Ми досягли великих успіхів у цьому напрямку і тепер можемо ідентифікувати десятки мільйонів «ознак» всередині нейромережі Клода, які відповідають зрозумілим людині ідеям та концепціям, а також можемо вибірково активувати ознаки таким чином, щоб це змінювало поведінку. Зовсім недавно ми вийшли за рамки окремих ознак, щоб картувати «ланцюги», які організують складну поведінку, таку як римування, міркування про теорію розуму або покрокові міркування, необхідні для відповіді на питання типу: «Яка столиця штату, в якому знаходиться Даллас?» Ще зовсім недавно ми почали використовувати методи механістичної інтерпретованості для покращення наших заходів безпеки та проведення «аудитів» нових моделей перед їх випуском, шукаючи докази обману, інтриг, прагнення до влади або схильності поводитися по-іншому при оцінці.
Унікальна цінність інтерпретованості полягає в тому, що, заглядаючи всередину моделі та бачачи, як вона працює, ви в принципі можете вивести, що модель може зробити в гіпотетичній ситуації, яку ви не можете безпосередньо протестувати — що є проблемою при опорі виключно на конституційне навчання та емпіричне тестування поведінки. Ви також в принципі можете відповісти на питання про те, чому модель поводиться так, як вона поводиться — наприклад, чи говорить вона щось, що вважає хибним, або приховує свої справжні можливості — і, таким чином, можна вловити тривожні ознаки, навіть коли в поведінці моделі немає нічого явно неправильного. Щоб навести просту аналогію, механічний годинник може нормально цокати, так що дуже важко сказати, що він, ймовірно, зламається наступного місяця, але відкриття годинника та заглядання всередину може виявити механічні слабкості, які дозволять вам це з’ясувати.
Конституційний ШІ (поряд з аналогічними методами вирівнювання) та механістична інтерпретованість найбільш потужні при спільному використанні, як взаємопов’язаний процес покращення навчання Клода та подальшого тестування на наявність проблем. Конституція глибоко відображає нашу намічену особистість для Клода; методи інтерпретованості можуть дати нам уявлення про те, чи вкоренилася ця намічена особистість.
Третє, що ми можемо зробити, — це створити інфраструктуру, необхідну для моніторингу наших моделей у реальному внутрішньому та зовнішньому використанні, і публічно ділитися будь-якими виявленими проблемами. Чим більше людей обізнані про те, як сьогоднішні системи ШІ, як було помічено, поводяться погано, тим більше користувачів, аналітиків та дослідників можуть відстежувати цю поведінку або аналогічні в теперішніх або майбутніх системах. Це також дозволяє компаніям ШІ вчитися одна в одної — коли побоювання публічно розкриваються однією компанією, інші компанії можуть також відстежувати їх. І якщо всі розкривають проблеми, то галузь в цілому отримує набагато повніше уявлення про те, що йде добре, а що погано.
Anthropic намагалася робити це максимально можливо. Ми інвестуємо в широкий спектр оцінок, щоб зрозуміти поведінку наших моделей у лабораторії, а також в інструменти моніторингу для спостереження за поведінкою в реальних умовах (коли це дозволено клієнтами). Це буде необхідно для надання нам та іншим емпіричної інформації, необхідної для прийняття більш точних рішень про те, як працюють ці системи і як вони виходять з ладу. Ми публічно розкриваємо «системні картки» з кожним випуском моделі, які прагнуть до повноти та ретельного дослідження можливих ризиків. Наші системні картки часто досягають сотень сторінок і вимагають значних передрелізних зусиль, які ми могли б витратити на досягнення максимальної комерційної переваги. Ми також голосніше повідомляли про поведінку моделей, коли бачили особливо тривожні, як, наприклад, схильність до шантажу.
Четверте, що ми можемо зробити, — це заохочувати координацію для вирішення ризиків автономії на рівні галузі та суспільства. Хоча для окремих компаній ШІ неймовірно цінно застосовувати хороші практики або добре керувати моделями ШІ, а також публічно ділитися своїми висновками, реальність така, що не всі компанії ШІ роблять це, і найгірші з них все ще можуть становити небезпеку для всіх, навіть якщо найкращі мають відмінні практики. Наприклад, деякі компанії ШІ виявили тривожне нехтування сексуалізацією дітей у сьогоднішніх моделях, що змушує мене сумніватися, що вони виявлять схильність або здатність вирішувати ризики автономії в майбутніх моделях. Крім того, комерційна гонка між компаніями ШІ буде тільки посилюватися, і хоча наука управління моделями може мати деякі комерційні переваги, в цілому інтенсивність гонки буде все більше ускладнювати зосередження на вирішенні ризиків автономії. Я вважаю, що єдине рішення — це законодавство — закони, які безпосередньо впливають на поведінку компаній ШІ або іншим чином стимулюють НДДКР для вирішення цих проблем.
Тут варто пам’ятати про попередження, які я дав на початку цього есе, про невизначеність та точкові втручання. Ми не знаємо напевно, чи будуть ризики автономії серйозною проблемою — як я вже сказав, я відкидаю твердження про те, що небезпека неминуча або навіть що щось піде не так за замовчуванням. Достовірний ризик небезпеки достатній для мене і для Anthropic, щоб нести досить значні витрати на його вирішення, але як тільки ми переходимо до регулювання, ми змушуємо широкий спектр учасників нести економічні витрати, і багато з цих учасників не вірять, що ризик автономії реальний або що ШІ стане достатньо потужним, щоб бути загрозою. Я вважаю, що ці учасники помиляються, але ми повинні бути прагматичними щодо очікуваного опору та небезпек надмірного втручання. Існує також реальний ризик того, що надмірно приписувальне законодавство врешті-решт накладає тести або правила, які насправді не покращують безпеку, але витрачають багато часу (по суті, зводячись до «театру безпеки») — це також викличе негативну реакцію і змусить законодавство про безпеку виглядати безглуздо.
Позиція Anthropic полягала в тому, що правильним місцем для початку є законодавство про прозорість, яке по суті намагається вимагати, щоб кожна передова компанія ШІ застосовувала практики прозорості, описані мною раніше в цьому розділі. Каліфорнійський законопроект SB 53 та Нью-Йоркський закон RAISE Act є прикладами такого роду законодавства, яке Anthropic підтримала і яке було успішно прийнято. Підтримуючи та допомагаючи розробляти ці закони, ми приділяли особливу увагу мінімізації супутньої шкоди, наприклад, звільняючи від закону невеликі компанії, які навряд чи будуть виробляти передові моделі.19
Ми сподіваємося, що законодавство про прозорість з часом дасть краще уявлення про те, наскільки ймовірні або серйозні ризики автономії, а також про характер цих ризиків і про те, як найкраще їх запобігти. У міру появи (якщо воно з’явиться) більш конкретних і дієвих доказів ризиків, майбутнє законодавство в найближчі роки може бути точково сфокусоване на точному і добре обґрунтованому напрямку ризиків, мінімізуючи супутню шкоду. Щоб бути ясним, якщо з’являться дійсно переконливі докази ризиків, то правила повинні бути пропорційно сильними.
В цілому, я оптимістичний щодо того, що поєднання навчання вирівнювання, механістичної інтерпретованості, зусиль з виявлення та публічного розкриття тривожної поведінки, заходів безпеки та правил на рівні суспільства може вирішити ризики автономії ШІ, хоча мене найбільше турбують правила на рівні суспільства та поведінка найменш відповідальних гравців (і саме найменш відповідальні гравці найактивніше виступають проти регулювання). Я вважаю, що засіб завжди один і той самий у демократії: ті з нас, хто вірить у цю справу, повинні довести, що ці ризики реальні і що наші співгромадяни повинні об’єднатися, щоб захистити себе.
2. Дивовижне та жахливе розширення можливостей
Зловживання для руйнування
У попередньому розділі обговорювався ризик того, що окремі особи та невеликі організації кооптують невелику частину «країни геніїв у центрі обробки даних» для спричинення великомасштабних руйнувань. Але ми також повинні турбуватися — ймовірно, значно більше — про зловживання ШІ з метою здійснення або захоплення влади, ймовірно, більшими та усталеними акторами.
Припустимо, що проблеми автономії ШІ вирішені — ми більше не турбуємося, що країна геніїв ШІ вийде з-під контролю і здолає людство. Генії ШІ роблять те, що від них хочуть люди, і оскільки вони володіють величезною комерційною цінністю, окремі особи та організації по всьому світу можуть «орендувати» одного або кількох геніїв ШІ для виконання різних завдань.
Наявність суперінтелектуального генія в кишені у кожного — це дивовижний прогрес, який призведе до неймовірного створення економічної цінності та покращення якості людського життя. Я докладно говорю про ці переваги в «Машинах люблячої благодаті». Але не кожен ефект від того, що кожен стане надлюдськи здібним, буде позитивним. Це може потенційно посилити здатність окремих осіб або невеликих груп спричиняти руйнування в набагато більшому масштабі, ніж це було можливо раніше, використовуючи складні та небезпечні інструменти (такі як зброя масового знищення), які раніше були доступні лише небагатьом обраним з високим рівнем навичок, спеціалізованою підготовкою та зосередженістю.
Як Білл Джой написав 25 років тому в «Чому майбутнє нас не потребує»:
Створення ядерної зброї вимагало, принаймні на деякий час, доступу як до рідкісних — фактично недоступних — сировинних матеріалів, так і до захищеної інформації; програми біологічної та хімічної зброї також, як правило, вимагали великомасштабної діяльності. Технології 21-го століття — генетика, нанотехнології та робототехніка… можуть породити абсолютно нові класи нещасних випадків та зловживань… широко доступні окремим особам або невеликим групам. Вони не вимагатимуть великих об’єктів або рідкісних сировинних матеріалів. …ми знаходимося на порозі подальшого вдосконалення крайнього зла, зла, можливість якого поширюється далеко за межі того, що зброя масового знищення заповідала національним державам, до дивовижного та жахливого розширення можливостей екстремальних особистостей.
Джой вказує на ідею про те, що спричинення великомасштабних руйнувань вимагає як мотиву, так і здатності, і поки здатність обмежена невеликим колом висококваліфікованих людей, ризик того, що окремі особи (або невеликі групи) спричинять такі руйнування, відносно обмежений.21 Психічно неврівноважений одинак може влаштувати стрілянину в школі, але, ймовірно, не зможе створити ядерну зброю або випустити чуму.
Насправді, здатність і мотив можуть бути навіть негативно корельовані. Людина, яка володіє здатністю випустити чуму, ймовірно, високоосвічена: швидше за все, доктор молекулярної біології, причому особливо винахідливий, з багатообіцяючою кар’єрою, стабільною та дисциплінованою особистістю і багатьом, що можна втратити. Така людина навряд чи буде зацікавлена в убивстві величезної кількості людей без будь-якої вигоди для себе і з великим ризиком для свого майбутнього — вона повинна бути мотивована чистою злістю, сильною образою або нестабільністю.
Такі люди існують, але вони рідкісні і, як правило, стають гучними історіями, коли відбуваються, саме тому, що вони такі незвичайні.22 Їх також важко спіймати, тому що вони розумні та здібні, іноді залишаючи загадки, на вирішення яких йдуть роки або десятиліття. Найвідомішим прикладом, ймовірно, є математик Теодор Качинський (Унабомбер), який ухилявся від затримання ФБР майже 20 років і був рухомий антитехнологічною ідеологією. Інший приклад — дослідник біозахисту Брюс Айвінс, який, схоже, організував серію атак з сибірською виразкою у 2001 році. Це також відбувалося з кваліфікованими недержавними організаціями: культ Аум Сінрікьо зумів отримати нервово-паралітичний газ зарин і вбити 14 людей (а також поранити сотні інших), випустивши його в токійському метро у 1995 році.
На щастя, жодна з цих атак не використовувала заразні біологічні агенти, тому що здатність створювати або отримувати ці агенти була за межами можливостей навіть цих людей.23 Досягнення в молекулярній біології тепер значно знизили бар’єр для створення біологічної зброї (особливо з точки зору доступності матеріалів), але для цього все ще потрібна величезна кількість досвіду. Я стурбований тим, що геній у кишені кожного може усунути цей бар’єр, по суті, перетворюючи кожного на доктора вірусології, якого можна крок за кроком провести через процес розробки, синтезу та випуску біологічної зброї. Запобігання отриманню такого роду інформації перед обличчям серйозного ворожого тиску — так званих «джейлбрейків» — ймовірно, вимагає багаторівневого захисту, що виходить за рамки звичайної, закладеної в навчання.
Вкрай важливо, що це порушить кореляцію між здатністю та мотивом: психічно неврівноважений одинак, який хоче вбивати людей, але не має дисципліни або навичок, тепер буде піднятий до рівня можливостей доктора вірусології, у якого навряд чи буде така мотивація. Це занепокоєння виходить за рамки біології (хоча я думаю, що біологія — найстрашніша область) і поширюється на будь-яку область, де можливе велике руйнування, але в даний час потрібен високий рівень навичок та дисципліни. Іншими словами, оренда потужного ШІ дає інтелект зловмисним (але в іншому звичайним) людям. Я стурбований тим, що таких людей потенційно багато, і що якщо у них буде доступ до простого способу вбити мільйони людей, рано чи пізно один з них це зробить. Крім того, ті, хто дійсно володіє досвідом, можуть бути здатні здійснювати ще більш масштабні руйнування, ніж раніше.
Біологія — це, безумовно, область, яка мене найбільше турбує, через її дуже великий потенціал руйнування та труднощі захисту від неї, тому я зосереджуся саме на біології. Але багато з того, що я говорю тут, застосовне і до інших ризиків, таких як кібератаки, хімічна зброя або ядерні технології.
Я не буду вдаватися в подробиці того, як створювати біологічну зброю, з очевидних причин. Але на високому рівні я стурбований тим, що ВММ наближаються (або, можливо, вже досягли) знань, необхідних для їх створення та випуску від початку до кінця, і що їхній потенціал руйнування дуже високий. Деякі біологічні агенти можуть спричинити мільйони смертей, якщо будуть зроблені рішучі зусилля щодо їх поширення для максимального охоплення. Однак для цього все одно потрібен дуже високий рівень навичок, включаючи низку дуже специфічних кроків та процедур, які не широко відомі. Моє занепокоєння стосується не просто фіксованих або статичних знань. Я стурбований тим, що ВММ зможуть взяти людину із середніми знаннями та здібностями і провести її через складний процес, який інакше міг би піти не так або вимагати налагодження в інтерактивному режимі, подібно до того, як техпідтримка може допомогти нетехнічній людині налагодити та виправити складні проблеми, пов’язані з комп’ютером (хоча це був би довший процес, ймовірно, триваючий тижні або місяці).
Більш потужні ВММ (значно перевершуючі сьогоднішні) можуть бути здатні до ще більш лякаючих дій. У 2024 році група видатних вчених написала листа, попереджаючи про ризики дослідження та потенційного створення небезпечного нового типу організму: «дзеркального життя». ДНК, РНК, рибосоми та білки, що складають біологічні організми, всі мають однакову хіральність (також звану «дзеркальною симетрією»), яка робить їх не еквівалентними версії самих себе, відбитої в дзеркалі (точно так само, як вашу праву руку не можна повернути таким чином, щоб вона була ідентична вашій лівій). Але вся система зв’язування білків один з одним, механізм синтезу ДНК та трансляції РНК, а також побудови та розпаду білків — все це залежить від цієї дзеркальної симетрії. Якби вчені створили версії цього біологічного матеріалу з протилежною дзеркальною симетрією — а у них є деякі потенційні переваги, такі як ліки, які довше діють в організмі, — це могло б бути надзвичайно небезпечно. Це тому, що лівостороння життя, якби вона була створена у формі повноцінних організмів, здатних до розмноження (що було б дуже важко), потенційно була б неперетравлюваною для будь-якої з систем, що розщеплюють біологічний матеріал на Землі — у неї був би «ключ», який не підійшов би до «замка» будь-якого існуючого ферменту. Це означало б, що вона могла б безконтрольно поширюватися і витісняти все життя на планеті, в найгіршому випадку навіть знищуючи все життя на Землі.
Існує значна наукова невизначеність як щодо створення, так і потенційних ефектів дзеркального життя. Лист 2024 року супроводжував звіт, який дійшов висновку, що «дзеркальні бактерії можуть бути правдоподібно створені в найближчі одне-два десятиліття», що є широким діапазоном. Але достатньо потужна модель ШІ (щоб бути ясним, набагато здібніша, ніж будь-яка з існуючих сьогодні) могла б виявити, як створити її набагато швидше — і фактично допомогти комусь це зробити.
Моя точка зору полягає в тому, що, хоча це неясні ризики і можуть здатися малоймовірними, масштаб наслідків настільки великий, що їх слід розглядати всерйоз як першокласний ризик систем ШІ.
Скептики висунули низку заперечень проти серйозності цих біологічних ризиків від ВММ, з якими я не згоден, але які варто розглянути. Більшість з них відносяться до категорії недооцінки експоненціальної траєкторії розвитку технології. Ще у 2023 році, коли ми вперше почали говорити про біологічні ризики від ВММ, скептики говорили, що вся необхідна інформація доступна в Google, і ВММ нічого не додавали до цього. Ніколи не було правдою, що Google міг дати вам всю необхідну інформацію: геноми вільно доступні, але, як я вже говорив вище, певні ключові кроки, а також величезна кількість практичних ноу-хау не можуть бути отримані таким чином. Але також до кінця 2023 року ВММ явно надавали інформацію, що виходить за рамки того, що міг дати Google, для деяких етапів процесу.
Після цього скептики відступили до заперечення, що ВММ не були корисні від початку до кінця і не могли допомогти в придбанні біозброї, на відміну від просто надання теоретичної інформації. Станом на середину 2025 року наші вимірювання показують, що ВММ, можливо, вже забезпечують суттєвий підйом у кількох відповідних областях, можливо, подвоюючи або потроюючи ймовірність успіху. Це призвело до того, що ми вирішили, що Claude Opus 4 (і наступні моделі Sonnet 4.5, Opus 4.1 та Opus 4.5) повинні бути випущені під нашим захистом рівня безпеки ШІ 3 в рамках нашої Політики відповідального масштабування, і до впровадження заходів безпеки проти цього ризику (докладніше про це пізніше). Ми вважаємо, що моделі, ймовірно, зараз наближаються до точки, коли без заходів безпеки вони могли б бути корисні для того, щоб людина зі ступенем у галузі STEM, але не конкретно в біології, пройшла весь процес створення біозброї.
Ще одне заперечення полягає в тому, що існують інші дії, не пов’язані зі ШІ, які суспільство може вжити для блокування виробництва біозброї. Найбільш помітно, що індустрія синтезу генів виробляє біологічні зразки на вимогу, і немає федеральної вимоги, щоб постачальники перевіряли замовлення на предмет відсутності патогенів. Дослідження MIT показало, що 36 з 38 постачальників виконали замовлення, що містило послідовність вірусу грипу 1918 року. Я підтримую обов’язковий скринінг синтезу генів, який ускладнив би окремим особам створення патогенів як зброї, щоб знизити як біологічні ризики, пов’язані зі ШІ, так і біологічні ризики в цілому. Але цього у нас сьогодні немає. Це також був би лише один інструмент для зниження ризику; це доповнення до заходів безпеки для систем ШІ, а не заміна.
Найкраще заперечення, яке я рідко бачив, — це те, що існує розрив між тим, що моделі корисні в принципі, і фактичною схильністю зловмисників використовувати їх. Більшість окремих зловмисників — це психічно неврівноважені особистості, тому майже за визначенням їхня поведінка непередбачувана та ірраціональна — і саме ці зловмисники, некваліфіковані, могли б отримати найбільшу вигоду від того, що ШІ значно полегшує вбивство багатьох людей.24 Те, що тип насильницького нападу можливий, не означає, що хтось вирішить його здійснити. Можливо, біологічні атаки будуть непривабливими, тому що вони з розумною ймовірністю заразять виконавця, не відповідають військовим фантазіям багатьох жорстоких особистостей або груп, і важко вибірково націлюватися на конкретних людей. Також може бути, що проходження процесу, який займає місяці, навіть якщо ШІ проведе вас через нього, вимагає такої кількості терпіння, якого у більшості психічно неврівноважених людей просто немає. Нам просто може пощастити, і мотив зі здатністю на практиці не зійдуться потрібним чином.
Але це здається дуже хистким захистом, на який можна покладатися. Мотиви психічно неврівноважених одинаків можуть змінюватися з будь-якої причини або без причини, і насправді вже є випадки використання ВММ в атаках (тільки не з біологією). Зосередження на психічно неврівноважених одинаках також ігнорує ідеологічно мотивованих терористів, які часто готові витрачати багато часу та зусиль (наприклад, викрадачі 11 вересня). Бажання вбити якомога більше людей — це мотив, який, ймовірно, рано чи пізно виникне, і він, на жаль, вказує на біозброю як на метод. Навіть якщо цей мотив надзвичайно рідкісний, він повинен матеріалізуватися лише один раз. І в міру розвитку біології (все більше рухомої самим ШІ) також може стати можливим здійснення більш вибіркових атак (наприклад, націлених на людей з певними етнічними групами), що додає ще один, дуже лякаючий, можливий мотив.
Я не думаю, що біологічні атаки обов’язково будуть здійснені в той момент, коли це стане широко можливим — насправді, я б поставив проти цього. Але, підсумовуючи по мільйонах людей і кількох роках, я думаю, що існує серйозний ризик великої атаки, і наслідки були б настільки серйозними (з жертвами, потенційно обчислюваними мільйонами або більше), що, я вважаю, у нас немає іншого вибору, крім як вжити серйозних заходів для запобігання цьому.
Захист
Це підводить нас до того, як захиститися від цих ризиків. Тут я бачу три речі, які ми можемо зробити. По-перше, компанії ШІ можуть встановлювати захисні бар’єри на своїх моделях, щоб запобігти їхній допомозі у виробництві біозброї. Anthropic дуже активно цим займається. Конституція Клода, яка в основному зосереджена на високорівневих принципах і цінностях, містить невелику кількість конкретних жорстких заборон, і один з них стосується допомоги у виробництві біологічної (або хімічної, або ядерної, або радіологічної) зброї. Але всі моделі можуть бути «зламані» (jailbroken), і тому як друга лінія оборони ми впровадили (з середини 2025 року, коли наші тести показали, що наші моделі починають наближатися до порогу, де вони можуть почати становити ризик) класифікатор, який спеціально виявляє та блокує висновки, пов’язані з біозброєю. Ми регулярно оновлюємо та покращуємо ці класифікатори і в цілому знаходимо їх дуже надійними навіть проти складних ворожих атак.25 Ці класифікатори помітно збільшують витрати на обслуговування наших моделей (у деяких моделях вони становлять близько 5% від загальних витрат на інференс) і, таким чином, знижують наш прибуток, але ми вважаємо, що їх використання — це правильний вчинок.
До їхньої честі, деякі інші компанії ШІ також впровадили класифікатори. Але не кожна компанія це зробила, і немає нічого, що зобов’язувало б компанії зберігати свої класифікатори. Я стурбований тим, що з часом може виникнути дилема в’язня, коли компанії можуть відступити і знизити свої витрати, видаливши класифікатори. Це знову класична проблема негативних зовнішніх ефектів, яку не можна вирішити добровільними діями Anthropic або будь-якої іншої окремої компанії поодинці.26 Добровільні галузеві стандарти можуть допомогти, як і сторонні оцінки та перевірка, що проводяться інститутами безпеки ШІ та сторонніми оцінювачами Metr.
Але врешті-решт захист може вимагати дій уряду, що є другим, що ми можемо зробити. Мої погляди тут такі ж, як і щодо вирішення ризиків автономії: ми повинні почати з вимог прозорості,27 які допомагають суспільству вимірювати, відстежувати та колективно захищатися від ризиків, не порушуючи економічну діяльність жорсткими методами. Потім, якщо і коли ми досягнемо більш чітких порогів ризику, ми можемо розробити законодавство, яке більш точно націлене на ці ризики і має менший шанс супутньої шкоди. У конкретному випадку біозброї я насправді думаю, що час для такого цільового законодавства може скоро настати — Anthropic та інші компанії все більше дізнаються про природу біологічних ризиків і про те, що розумно вимагати від компаній у захисті від них. Повний захист від цих ризиків може вимагати роботи на міжнародному рівні, навіть з геополітичними противниками, але є прецедент у договорах, що забороняють розробку біологічної зброї. Я в цілому скептично ставлюся до більшості видів міжнародного співробітництва в галузі ШІ, але це може бути одна вузька область, де є деякий шанс досягти глобального стримування. Навіть диктатури не хочуть масових біотерористичних атак.
Нарешті, третя контрзахід, яку ми можемо вжити, — це спробувати розробити засоби захисту від самих біологічних атак. Це може включати моніторинг та відстеження для раннього виявлення, інвестиції в НДДКР з очищення повітря (наприклад, дезінфекція далеким УФ-С), швидку розробку вакцин, які можуть реагувати та адаптуватися до атаки, покращені засоби індивідуального захисту (ЗІЗ),28 та лікування або вакцинацію від деяких найбільш ймовірних біологічних агентів. мРНК-вакцини, які можуть бути розроблені для реагування на конкретний вірус або варіант, є раннім прикладом того, що тут можливо. Anthropic рада працювати з біотехнологічними та фармацевтичними компаніями над цією проблемою. Але, на жаль, я думаю, що наші очікування щодо оборони повинні бути обмежені. Існує асиметрія між нападом та обороною в біології, тому що агенти швидко поширюються самі по собі, в той час як захист вимагає виявлення, вакцинації та лікування, які повинні бути організовані для великої кількості людей дуже швидко у відповідь. Якщо відповідь не буде блискавичною (що рідко буває), більша частина шкоди буде завдана до того, як стане можливим відповідь. Цілком можливо, що майбутні технологічні покращення можуть змістити цей баланс на користь оборони (і ми, безумовно, повинні використовувати ШІ для допомоги в розробці таких технологічних досягнень), але до тих пір превентивні заходи безпеки будуть нашою основною лінією оборони.
Тут варто коротко згадати кібератаки, оскільки, на відміну від біологічних атак, кібератаки під керівництвом ШІ фактично відбувалися в реальному світі, в тому числі в великих масштабах і для державного шпигунства. Ми очікуємо, що ці атаки стануть більш потужними в міру швидкого розвитку моделей, поки вони не стануть основним способом проведення кібератак. Я очікую, що кібератаки під керівництвом ШІ стануть серйозною та безпрецедентною загрозою цілісності комп’ютерних систем по всьому світу, і Anthropic дуже старанно працює над тим, щоб припинити ці атаки і врешті-решт надійно запобігти їм. Причина, по якій я не приділяв кіберпростору стільки уваги, скільки біології, полягає в тому, що (1) кібератаки набагато рідше призводять до загибелі людей, вже точно не в масштабах біологічних атак, і (2) баланс нападу та захисту може бути більш керованим у кіберпросторі, де є хоча б деяка надія, що захист зможе встигати (і навіть в ідеалі випереджати) за атаками ШІ, якщо ми будемо інвестувати в нього належним чином.
Хоча біологія в даний час є найсерйознішим вектором атаки, існує безліч інших векторів, і можливо, що може з’явитися більш небезпечний. Загальний принцип полягає в тому, що без контрзаходів ШІ, ймовірно, буде постійно знижувати бар’єр для деструктивної діяльності у все більших масштабах, і людству потрібна серйозна відповідь на цю загрозу.
3. Мерзенний апарат
Зловживання для захоплення влади
У попередньому розділі обговорювався ризик того, що окремі особи та невеликі організації кооптують невелику частину «країни геніїв у центрі обробки даних» для спричинення великомасштабних руйнувань. Але ми також повинні турбуватися — ймовірно, значно більше — про зловживання ШІ з метою здійснення або захоплення влади, ймовірно, більшими та усталеними акторами.
У «Машинах люблячої благодаті» я обговорював можливість того, що авторитарні уряди можуть використовувати потужний ШІ для спостереження або придушення своїх громадян таким чином, що це буде надзвичайно важко реформувати або повалити. Нинішні автократії обмежені у своїй репресивності необхідністю, щоб люди виконували їхні накази, а люди часто мають межі в тому, наскільки нелюдяними вони готові бути. Але автократії, підтримувані ШІ, не мали б таких обмежень.
Гірше того, країни також могли б використовувати свою перевагу в ШІ для отримання влади над іншими країнами. Якби «країна геніїв» в цілому просто належала і контролювалася військовим апаратом однієї (людської) країни, а інші країни не мали б еквівалентних можливостей, важко уявити, як вони могли б захистити себе: їх би перехитрили на кожному кроці, подібно до війни між людьми та мишами. Об’єднання цих двох побоювань призводить до тривожної можливості глобальної тоталітарної диктатури. Очевидно, що запобігання цьому результату повинно бути одним з наших найвищих пріоритетів.
Існує безліч способів, якими ШІ може сприяти, зміцнювати або розширювати автократію, але я перерахую кілька, які мене найбільше турбують. Зверніть увагу, що деякі з цих застосувань мають законні оборонні застосування, і я не обов’язково виступаю проти них в абсолютному вираженні; тим не менш, я стурбований тим, що вони структурно схильні сприяти автократіям:
- Повністю автономна зброя. Рій з мільйонів або мільярдів повністю автоматизованих озброєних дронів, локально керований потужним ШІ та стратегічно координований по всьому світу ще більш потужним ШІ, міг би стати непереможною армією, здатною як перемогти будь-яку армію в світі, так і придушити інакомислення всередині країни, слідуючи за кожним громадянином. Події російсько-української війни повинні попередити нас про те, що війна дронів вже з нами (хоча ще не повністю автономна і становить крихітну частку того, що може бути можливо з потужним ШІ). НДДКР у галузі потужного ШІ могли б зробити дрони однієї країни набагато переважаючими інші, прискорити їхнє виробництво, зробити їх більш стійкими до електронних атак, покращити їхнє маневрування тощо. Звичайно, ця зброя також має законні застосування в захисті демократії: вона відіграла ключову роль у захисті України і, ймовірно, відіграє ключову роль у захисті Тайваню. Але це небезпечна зброя: ми повинні турбуватися про неї в руках автократій, але також турбуватися про те, що, оскільки вона настільки потужна, з такою малою підзвітністю, значно зростає ризик того, що демократичні уряди звернуть її проти власного народу для захоплення влади.
- Спостереження за допомогою ШІ. Достатньо потужний ШІ, ймовірно, може бути використаний для компрометації будь-якої комп’ютерної системи в світі,30 а також може використовувати отриманий таким чином доступ для читання та осмислення всіх електронних комунікацій світу (або навіть всіх особистих комунікацій світу, якщо записуючі пристрої можуть бути створені або захоплені). Може бути жахливо правдоподібно просто згенерувати повний список усіх, хто не згоден з урядом з будь-якої кількості питань, навіть якщо така незгода не є явною в тому, що вони говорять або роблять. Потужний ШІ, що переглядає мільярди розмов мільйонів людей, міг би оцінювати громадську думку, виявляти осередки нелояльності, що формуються, і придушувати їх до того, як вони розростуться. Це могло б призвести до встановлення справжнього паноптикуму в масштабі, якого ми не бачимо сьогодні, навіть у КПК.
- Пропаганда за допомогою ШІ. Сьогоднішні явища «ШІ-психозу» та «ШІ-подружок» припускають, що навіть на їхньому нинішньому рівні інтелекту моделі ШІ можуть чинити потужний психологічний вплив на людей. Набагато потужніші версії цих моделей, які були б набагато більш вбудованими в повсякденне життя людей і обізнаними про нього, і могли б моделювати та впливати на них протягом місяців або років, ймовірно, були б здатні по суті промивати мізки багатьом (більшості?) людям, вселяючи будь-яку бажану ідеологію або ставлення, і могли б бути використані безпринципним лідером для забезпечення лояльності та придушення інакомислення, навіть перед обличчям рівня репресій, проти якого більшість населення повстало б. Сьогодні люди багато турбуються, наприклад, про потенційний вплив TikTok як пропаганди КПК, спрямованої на дітей. Я теж про це турбуюся, але персоналізований ШІ-агент, який дізнається вас протягом багатьох років і використовує свої знання про вас для формування всіх ваших думок, був би значно потужнішим за це.
- Прийняття стратегічних рішень. Країна геніїв у центрі обробки даних могла б використовуватися для консультування країни, групи або окремої особи щодо геополітичної стратегії, що ми могли б назвати «віртуальним Бісмарком». Вона могла б оптимізувати три вищезгадані стратегії захоплення влади, а також, ймовірно, розробити безліч інших, про які я не думав (але які могла б розробити країна геніїв). Дипломатія, військова стратегія, НДДКР, економічна стратегія та багато інших областей, ймовірно, суттєво підвищаться в ефективності завдяки потужному ШІ. Багато з цих навичок були б законно корисні для демократій — ми хочемо, щоб демократії мали доступ до найкращих стратегій для захисту від автократій — але потенціал зловживання в чиїхось руках все ще залишається.
Описавши, що мене турбує, перейдемо до кого. Мене турбують сутності, які мають найбільший доступ до ШІ, які починають з позиції найбільшої політичної влади або які мають існуючу історію репресій. У порядку зростання серйозності мене турбують:
- КПК. Китай поступається лише Сполученим Штатам у можливостях ШІ і є країною з найбільшою ймовірністю перевершити Сполучені Штати в цих можливостях. Їхній уряд в даний час є автократичним і керує високотехнологічною державою спостереження. Він вже розгорнув спостереження на основі ШІ (включаючи придушення уйгурів) і, як вважається, використовує алгоритмічну пропаганду через TikTok (на додаток до багатьох інших своїх міжнародних пропагандистських зусиль). У них, безумовно, найясніший шлях до тоталітарного кошмару, підтримуваного ШІ, який я виклав вище. Це може бути навіть результат за замовчуванням у Китаї, а також в інших авторитарних державах, яким КПК експортує технології спостереження. Я часто писав про загрозу того, що КПК займе лідируючі позиції в ШІ, і екзистенційну необхідність запобігти цьому. Ось чому. Щоб бути ясним, я не виділяю Китай через ворожість до них зокрема — вони просто країна, яка найбільше поєднує в собі майстерність ШІ, авторитарний уряд і високотехнологічну державу спостереження. Якщо вже на те пішло, самі китайці, швидше за все, постраждають від репресій КПК, підтримуваних ШІ, і вони не мають права голосу в діях свого уряду. Я дуже захоплююся і поважаю китайський народ і підтримую багатьох хоробрих дисидентів у Китаї та їхню боротьбу за свободу.
- Демократії, конкурентоспроможні в ШІ. Як я писав вище, демократії мають законний інтерес у деяких військових та геополітичних інструментах, заснованих на ШІ, тому що демократичні уряди пропонують кращий шанс протистояти використанню цих інструментів автократіями. В цілому, я підтримую озброєння демократій інструментами, необхідними для перемоги над автократіями в епоху ШІ — я просто не думаю, що є якийсь інший шлях. Але ми не можемо ігнорувати потенціал зловживання цими технологіями самими демократичними урядами. Демократії зазвичай мають заходи безпеки, які запобігають зверненню їхнього військового та розвідувального апарату проти власного населення,31 але оскільки інструменти ШІ вимагають так мало людей для роботи, існує потенціал для їх обходу цих заходів безпеки та норм, які їх підтримують. Варто також зазначити, що деякі з цих заходів безпеки вже поступово руйнуються в деяких демократіях. Таким чином, ми повинні озброювати демократії ШІ, але ми повинні робити це обережно і в межах: вони — імунна система, яка нам потрібна для боротьби з автократіями, але, як і імунна система, існує деякий ризик того, що вони звернуться проти нас і самі стануть загрозою.
- Недемократичні країни з великими центрами обробки даних. Крім Китаю, більшість країн з менш демократичним управлінням не є провідними гравцями в ШІ в тому сенсі, що у них немає компаній, які виробляють передові моделі ШІ. Таким чином, вони представляють собою принципово інший і менший ризик, ніж КПК, яка залишається основною проблемою (більшість з них також менш репресивні, а ті, які більш репресивні, як Північна Корея, взагалі не мають значущої індустрії ШІ). Але деякі з цих країн мають великі центри обробки даних (часто в рамках будівництва компаніями, що працюють у демократіях), які можуть використовуватися для запуску передового ШІ у великих масштабах (хоча це не дає можливості просувати передові технології). З цим пов’язана деяка небезпека — ці уряди могли б в принципі експропріювати центри обробки даних і використовувати країну ШІ, що знаходиться в них, для своїх цілей. Я менше турбуюся про це порівняно зі країнами, такими як Китай, які безпосередньо розробляють ШІ, але це ризик, який слід мати на увазі.
- Компанії ШІ. Дещо незручно говорити це як генеральному директору компанії ШІ, але я думаю, що наступний рівень ризику — це фактично самі компанії ШІ. Компанії ШІ контролюють великі центри обробки даних, навчають передові моделі, володіють найбільшим досвідом у використанні цих моделей, а в деяких випадках мають щоденний контакт і можливість впливу на десятки або сотні мільйонів користувачів. Головне, чого їм не вистачає, — це легітимності та інфраструктури держави, тому більша частина того, що знадобилося б для створення інструментів ШІ-автократії, була б незаконною для компанії ШІ або, принаймні, надзвичайно підозрілою. Але дещо не неможливо: вони могли б, наприклад, використовувати свої ШІ-продукти для промивання мізків своїй величезній користувацькій базі, і громадськість повинна бути пильною до ризику, який це представляє. Я думаю, що управління компаніями ШІ заслуговує на ретельне вивчення.
Існує низка можливих аргументів проти серйозності цих загроз, і я б хотів їм вірити, тому що авторитарність, підтримувана ШІ, мене жахає. Варто розглянути деякі з цих аргументів і відповісти на них.
По-перше, деякі люди можуть покласти свої надії на ядерне стримування, особливо для протидії використанню автономної зброї ШІ для військового завоювання. Якщо хтось погрожує використати цю зброю проти вас, ви завжди можете погрожувати ядерним ударом у відповідь. Моє занепокоєння полягає в тому, що я не зовсім впевнений, що ми можемо бути впевнені в ядерному стримуванні проти країни геніїв у центрі обробки даних: можливо, потужний ШІ міг би розробити способи виявлення та ураження атомних підводних човнів, проведення операцій впливу проти операторів інфраструктури ядерної зброї або використання кіберможливостей ШІ для запуску кібератаки проти супутників, що використовуються для виявлення ядерних запусків. В якості альтернативи, можливо, що захоплення країн здійсненне лише за допомогою ШІ-спостереження та ШІ-пропаганди, і ніколи фактично не представляє чіткого моменту, коли очевидно, що відбувається, і коли ядерна відповідь була б доречною. Можливо, ці речі не здійсненні, і ядерне стримування все ще буде ефективним, але ставки здаються занадто високими, щоб ризикувати.34
Друге можливе заперечення полягає в тому, що ми можемо вжити контрзаходів проти цих інструментів автократії. Ми можемо протистояти дронам нашими власними дронами, кіберзахист буде покращуватися разом з кібератакою, можуть бути способи імунізувати людей від пропаганди тощо. Моя відповідь полягає в тому, що ці засоби захисту будуть можливі лише з порівняно потужним ШІ. Якщо не буде якоїсь контрсили з порівняно розумною та численною країною геніїв у центрі обробки даних, не вдасться відповідати якості або кількості дронів, кіберзахисту перехитрити кібернапад тощо. Таким чином, питання про контрзаходи зводиться до питання про баланс сил у потужному ШІ. Тут мене турбує рекурсивна або самопідтримувальна властивість потужного ШІ (яку я обговорював на початку цього есе): що кожне покоління ШІ може використовуватися для проектування та навчання наступного покоління ШІ. Це призводить до ризику неконтрольованої переваги, коли поточний лідер у потужному ШІ може збільшити свою перевагу, і його може бути важко наздогнати. Ми повинні переконатися, що не авторитарна країна першою досягне цього циклу.
Більше того, навіть якщо баланс сил може бути досягнутий, все ще існує ризик того, що світ може бути розділений на авторитарні сфери, як у «1984». Навіть якщо кілька конкуруючих держав мають свої потужні моделі ШІ, і жодна не може здолати інші, кожна держава все одно може внутрішньо придушувати власне населення, і її буде дуже важко повалити (оскільки у населення немає потужного ШІ для самозахисту). Таким чином, важливо запобігти автократії, підтримуваній ШІ, навіть якщо це не призведе до захоплення світу однією країною.
Захист
Як ми захистимося від цього широкого спектру авторитарних інструментів та потенційних загроз? Як і в попередніх розділах, є кілька речей, які, я думаю, ми можемо зробити. По-перше, ми абсолютно не повинні продавати чіпи, інструменти для виробництва чіпів або центри обробки даних КПК. Чіпи та інструменти для виробництва чіпів є єдиним найбільшим вузьким місцем для потужного ШІ, і їх блокування — це проста, але надзвичайно ефективна міра, можливо, найважливіша одинична дія, яку ми можемо вжити. Немає сенсу продавати КПК інструменти, за допомогою яких вона може побудувати тоталітарну державу ШІ і, можливо, завоювати нас у військовому відношенні. Висувається низка складних аргументів для виправдання таких продажів, наприклад, ідея про те, що «поширення нашого технологічного стека по всьому світу» дозволяє «Америці перемогти» в якійсь загальній, невизначеній економічній битві. На мій погляд, це схоже на продаж ядерної зброї Північній Кореї, а потім хвастощі тим, що корпуси ракет зроблені Boeing, і тому США «перемагають». Китай відстає від США на кілька років у своїй здатності виробляти передові чіпи у великих кількостях, і критичний період для створення країни геніїв у центрі обробки даних, швидше за все, припаде на ці кілька років. Немає причин давати величезний поштовх їхній ШІ-індустрії в цей критичний період.
По-друге, має сенс використовувати ШІ для розширення можливостей демократій протистояти автократіям. Саме з цієї причини Anthropic вважає важливим надавати ШІ розвідувальним та оборонним спільнотам у США та їхнім демократичним союзникам. Захист демократій, що знаходяться під атакою, таких як Україна та (за допомогою кібератак) Тайвань, здається особливо пріоритетним, як і розширення можливостей демократій використовувати свої розвідувальні служби для руйнування та ослаблення автократій зсередини. На якомусь рівні єдиний спосіб реагувати на авторитарні загрози — це відповідати їм і перевершувати їх у військовому відношенні. Коаліція США та їхніх демократичних союзників, якщо вона досягне переваги в потужному ШІ, буде в змозі не тільки захищатися від автократій, але й стримувати їх та обмежувати їхні тоталітарні зловживання ШІ.
По-третє, ми повинні провести жорстку лінію проти зловживань ШІ всередині демократій. Повинні бути межі того, що ми дозволяємо нашим урядам робити зі ШІ, щоб вони не захоплювали владу і не придушували власний народ. Формулювання, до якого я дійшов, полягає в тому, що ми повинні використовувати ШІ для національної оборони всіма способами, за винятком тих, які зробили б нас більш схожими на наших авторитарних супротивників.
Де повинна бути проведена межа? У списку на початку цього розділу два пункти — використання ШІ для внутрішнього масового спостереження та масової пропаганди — здаються мені яскравими червоними лініями і абсолютно нелегітимними. Деякі можуть заперечити, що немає необхідності що-небудь робити (принаймні, в США), оскільки внутрішнє масове спостереження вже незаконне згідно з Четвертою поправкою. Але швидкий прогрес ШІ може створити ситуації, з якими наші існуючі правові рамки не дуже добре пристосовані для вирішення. Наприклад, для уряду США, ймовірно, не буде неконституційним проводити масові записи всіх публічних розмов (наприклад, того, що люди говорять один одному на розі вулиці), і раніше було б важко розібратися в цьому обсязі інформації, але зі ШІ все це можна було б транскрибувати, інтерпретувати та тріангулювати, щоб створити картину ставлення та лояльності багатьох або більшості громадян. Я б підтримав законодавство, орієнтоване на громадянські свободи (або, можливо, навіть конституційну поправку), яке встановлює більш суворі заходи безпеки проти зловживань, заснованих на ШІ.
Два інших пункти — повністю автономна зброя та ШІ для прийняття стратегічних рішень — є більш складними для проведення межі, оскільки вони мають законні застосування в захисті демократії, але також схильні до зловживань. Тут я думаю, що виправдані крайня обережність та ретельний контроль у поєднанні з заходами безпеки для запобігання зловживанням. Мій головний страх — це занадто мала кількість «пальців на кнопці», так що одна або кілька людей могли б по суті керувати армією дронів, не потребуючи співпраці з іншими людьми для виконання своїх наказів. У міру того, як системи ШІ стають більш потужними, нам, можливо, доведеться мати більш прямі та негайні механізми нагляду для забезпечення того, щоб вони не використовувалися не за призначенням, можливо, за участю інших гілок влади, крім виконавчої. Я думаю, що ми повинні підходити до повністю автономної зброї, зокрема, з великою обережністю,36 і не поспішати з її використанням без належних заходів безпеки.
По-четверте, після проведення жорсткої лінії проти зловживань ШІ в демократіях, ми повинні використовувати цей прецедент для створення міжнародного табу на найгірші зловживання потужним ШІ. Я визнаю, що нинішні політичні вітри повернули проти міжнародного співробітництва та міжнародних норм, але це той випадок, коли вони нам вкрай необхідні. Світ повинен зрозуміти темний потенціал потужного ШІ в руках автократів і визнати, що певні види використання ШІ рівнозначні спробі назавжди вкрасти їхню свободу та нав’язати тоталітарну державу, з якої вони не зможуть вибратися. Я б навіть стверджував, що в деяких випадках великомасштабне спостереження за допомогою потужного ШІ, масова пропаганда за допомогою потужного ШІ та певні види наступального використання повністю автономної зброї повинні розглядатися як злочини проти людяності. У більш загальному плані, вкрай необхідна надійна норма проти тоталітаризму, підтримуваного ШІ, та всіх його інструментів і засобів.
Можлива ще сильніша версія цієї позиції, яка полягає в тому, що, оскільки можливості тоталітаризму, підтримуваного ШІ, настільки похмурі, автократія просто не є формою правління, яку люди можуть прийняти в епоху після потужного ШІ. Подібно до того, як феодалізм став непрацездатним з промисловою революцією, епоха ШІ може неминуче і логічно призвести до висновку, що демократія (і, сподіваюся, демократія, покращена та оновлена ШІ, як я обговорюю в «Машинах люблячої благодаті») є єдиною життєздатною формою правління, якщо людство хоче мати хороше майбутнє.
По-п’яте і, нарешті, компанії ШІ повинні ретельно відстежуватися, як і їхній зв’язок з урядом, яка необхідна, але повинна мати межі та кордони. Величезний обсяг можливостей, втілених у потужному ШІ, такий, що звичайне корпоративне управління — яке призначене для захисту акціонерів та запобігання звичайним зловживанням, таким як шахрайство, — навряд чи впорається із завданням управління компаніями ШІ. Також може бути цінність у тому, щоб компанії публічно брали на себе зобов’язання (можливо, навіть у рамках корпоративного управління) не вживати певних дій, таких як приватне будівництво або накопичення військового обладнання, використання великих обсягів обчислювальних ресурсів окремими особами без підзвітності або використання своїх ШІ-продуктів як пропаганди для маніпулювання громадською думкою на свою користь.
Небезпека тут походить з багатьох сторін, і деякі напрямки знаходяться в протиріччі з іншими. Єдина константа полягає в тому, що ми повинні прагнути до підзвітності, норм та заходів безпеки для всіх, навіть коли ми розширюємо можливості «хороших» акторів для стримування «поганих» акторів.
4. Механічне піаніно
Економічні потрясіння
Попередні три розділи були присвячені, по суті, загрозам безпеці, що походять від потужного ШІ: ризикам від самого ШІ, ризикам зловживання з боку окремих осіб та невеликих організацій, а також ризикам зловживання з боку держав та великих організацій. Якщо ми відкладемо вбік загрози безпеці або припустимо, що вони вирішені, наступне питання — економічне. Який буде вплив цього вливання неймовірного «людського» капіталу на економіку? Очевидно, що найбільш очевидним ефектом буде значне збільшення економічного зростання. Темпи прогресу в наукових дослідженнях, біомедичних інноваціях, виробництві, ланцюгах поставок, ефективності фінансової системи та багато іншого майже гарантовано призведуть до набагато швидшого темпу економічного зростання. У «Машинах люблячої благодаті» я припускаю, що можливий стійкий щорічний ріст ВВП на 10–20%.
Але має бути ясно, що це палиця з двома кінцями: які економічні перспективи для більшості існуючих людей у такому світі? Нові технології часто викликають шоки на ринку праці, і в минулому люди завжди відновлювалися після них, але я стурбований тим, що це відбувалося тому, що ці попередні шоки зачіпали лише малу частину всього можливого спектру людських здібностей, залишаючи місце для людей, щоб перейти до нових завдань. ШІ матиме набагато ширші та швидші наслідки, і тому я турбуюся, що буде набагато складніше досягти успіху.
Порушення ринку праці
Мене турбують дві конкретні проблеми: витіснення з ринку праці та концентрація економічної влади. Почнемо з першої. Це тема, про яку я дуже публічно попереджав у 2025 році, де я передбачив, що ШІ може витіснити половину всіх початкових офісних робочих місць у найближчі 1–5 років, навіть незважаючи на те, що він прискорює економічне зростання та науковий прогрес. Це попередження викликало публічні дебати з цієї теми. Багато генеральних директорів, технологій та економістів погодилися зі мною, але інші припустили, що я піддався «помилці фіксованого обсягу роботи» і не знав, як працюють ринки праці, а деякі не побачили часовий діапазон у 1–5 років і подумали, що я стверджую, що ШІ витісняє робочі місця прямо зараз (з чим я згоден, це, ймовірно, не так). Тому варто докладно розглянути, чому я турбуюся про витіснення з ринку праці, щоб прояснити ці непорозуміння.
В якості основи корисно зрозуміти, як ринки праці зазвичай реагують на досягнення в технології. Коли з’являється нова технологія, вона починає з того, що робить частини даної людської роботи більш ефективними. Наприклад, на початку Промислової революції машини, такі як вдосконалені плуги, дозволяли фермерам бути більш ефективними в деяких аспектах роботи. Це підвищило продуктивність фермерів, що збільшило їхню заробітну плату.
На наступному етапі деякі частини роботи по землеробству могли виконуватися повністю машинами, наприклад, з винаходом молотарки або сівалки. На цьому етапі люди виконували все меншу і меншу частку роботи, але робота, яку вони дійсно виконували, ставала все більш і більш ефективною, тому що вона доповнює роботу машин, і їхня продуктивність продовжувала зростати. Як описано парадоксом Джевонса, заробітна плата фермерів і, можливо, навіть кількість фермерів продовжували зростати. Навіть коли 90% роботи виконується машинами, люди можуть просто робити в 10 разів більше тих 10%, які вони все ще роблять, виробляючи в 10 разів більше продукції за ту саму кількість праці.
Зрештою, машини роблять все або майже все, як з сучасними комбайнами, тракторами та іншим обладнанням. У цей момент землеробство як форма людської зайнятості дійсно різко скорочується, і це потенційно викликає серйозні потрясіння в короткостроковій перспективі, але оскільки землеробство — це лише одна з багатьох корисних видів діяльності, якими люди здатні займатися, люди врешті-решт переключаються на інші роботи, такі як управління заводськими машинами. Це вірно, навіть незважаючи на те, що землеробство становило величезну частку зайнятості ex ante. 250 років тому 90% американців жили на фермах; в Європі 50–60% зайнятості припадало на сільське господарство. Тепер ці відсотки в цих місцях становлять низькі однозначні цифри, тому що працівники переключилися на промислові роботи (а пізніше — на інтелектуальну працю). Економіка може робити те, що раніше вимагало більшої частини робочої сили, використовуючи лише 1–2% її, звільняючи решту робочої сили для побудови все більш розвиненого індустріального суспільства. Немає фіксованого «обсягу роботи», є лише постійно розширювана здатність робити все більше і більше з меншими витратами. Заробітна плата людей зростає відповідно до експоненціального зростання ВВП, і економіка підтримує повну зайнятість після того, як короткострокові потрясіння пройдуть.
Можливо, зі ШІ все піде приблизно так само, але я б досить сильно поставив проти цього. Ось кілька причин, чому я думаю, що ШІ, ймовірно, буде відрізнятися:
- Швидкість. Темпи прогресу в ШІ набагато швидші, ніж для попередніх технологічних революцій. Наприклад, за останні 2 роки моделі ШІ пройшли шлях від ледь здатних написати одну строку коду до написання всього або майже всього коду для деяких людей — включаючи інженерів в Anthropic.37 Скоро вони можуть виконувати все завдання інженера-програміста від початку до кінця.38 Людям важко адаптуватися до цього темпу змін, як до змін у тому, як працює дана робота, так і до необхідності переключатися на нові роботи. Навіть легендарні програмісти все частіше описують себе як «відстаючих». Темпи можуть навіть продовжувати прискорюватися, оскільки моделі кодування ШІ все більше прискорюють завдання розробки ШІ. Щоб бути ясним, швидкість сама по собі не означає, що ринки праці та зайнятість врешті-решт не відновляться, вона лише передбачає, що короткостроковий перехід буде надзвичайно болючим порівняно з минулими технологіями, оскільки люди та ринки праці повільно реагують та врівноважуються.
- Когнітивна широта. Як випливає з фрази «країна геніїв у центрі обробки даних», ШІ буде здатний до дуже широкого спектру людських когнітивних здібностей — можливо, до всіх з них. Це дуже відрізняється від попередніх технологій, таких як механізоване землеробство, транспорт або навіть комп’ютери.39 Це ускладнить людям легкий перехід з витіснених робочих місць на аналогічні, для яких вони підходять. Наприклад, загальні інтелектуальні здібності, необхідні для початкових посад, скажімо, у фінансах, консалтингу та юриспруденції, досить схожі, навіть якщо конкретні знання сильно різняться. Технологія, яка порушила б лише одну з цих трьох областей, дозволила б співробітникам переключитися на дві інші близькі заміни (або студентам — змінити спеціалізацію). Але порушення всіх трьох одразу (поряд з багатьма іншими аналогічними роботами) може бути важче для адаптації людей. Більше того, справа не тільки в тому, що більшість існуючих робочих місць будуть порушені. Це вже відбувалося раніше — згадайте, що землеробство становило величезний відсоток зайнятості. Але фермери могли переключитися на відносно схожу роботу з управління заводськими машинами, хоча ця робота раніше не була поширена. Навпаки, ШІ все більше відповідає загальному когнітивному профілю людини, що означає, що він також буде хороший у нових роботах, які зазвичай створювалися б у відповідь на автоматизацію старих. Іншими словами, ШІ — це не замінник конкретних людських робочих місць, а скоріше загальний замінник праці для людей.
- Розділення за когнітивними здібностями. У широкому діапазоні завдань ШІ, схоже, просувається знизу вгору по сходах здібностей. Наприклад, у кодуванні наші моделі пройшли шлях від рівня «посереднього кодера» до «сильного кодера» до «дуже сильного кодера».40 Зараз ми починаємо бачити ту саму прогресію в офісній роботі в цілому. Таким чином, ми ризикуємо опинитися в ситуації, коли замість того, щоб зачіпати людей з певними навичками або в певних професіях (які можуть адаптуватися шляхом перенавчання), ШІ зачіпає людей з певними внутрішніми когнітивними властивостями, а саме з нижчими інтелектуальними здібностями (що важче змінити). Неясно, куди підуть або що будуть робити ці люди, і я стурбований тим, що вони можуть утворити безробітний або дуже низькооплачуваний «нижчий клас». Щоб бути ясним, щось подібне вже відбувалося раніше — наприклад, комп’ютери та інтернет, на думку деяких економістів, представляють собою «технологічні зміни, зміщені в бік навичок». Але це зміщення в бік навичок було не таким екстремальним, як те, що я очікую побачити зі ШІ, і, як вважається, сприяло збільшенню нерівності в заробітній платі,41 так що це не зовсім обнадійливий прецедент.
- Здатність заповнювати прогалини. Спосіб, яким людські робочі місця часто пристосовуються до нових технологій, полягає в тому, що у роботи є багато аспектів, і нова технологія, навіть якщо вона, здається, безпосередньо замінює людей, часто має в собі прогалини. Якщо хтось винаходить машину для виготовлення віджетів, людям все одно може знадобитися завантажувати сировину в машину. Навіть якщо це вимагає всього 1% зусиль порівняно з ручним виготовленням віджетів, людські працівники можуть просто виробляти в 100 разів більше віджетів. Але ШІ, крім того, що є швидко розвиваючоюся технологією, також є швидко адаптується технологією. При кожному випуску моделі компанії ШІ ретельно вимірюють, у чому модель хороша, а в чому ні, і клієнти також надають таку інформацію після запуску. Недоліки можуть бути усунені шляхом збору завдань, які втілюють поточний пробіл, і навчання на них для наступної моделі. На початку генеративного ШІ користувачі помітили, що системи ШІ мали певні недоліки (наприклад, моделі ШІ для зображень генерували руки з неправильною кількістю пальців), і багато хто припускав, що ці недоліки притаманні технології. Якби це було так, це обмежило б порушення робочих місць. Але практично кожен такий недолік швидко усувається — часто всього за кілька місяців.
Варто розглянути поширені точки зору скептиків. По-перше, є аргумент, що економічне поширення буде повільним, так що навіть якщо базова технологія здатна виконувати більшу частину людської праці, фактичне її застосування в економіці може бути набагато повільнішим (наприклад, у галузях, далеких від ШІ-індустрії та повільно впроваджуючих). Повільне поширення технологій безперечно реальне — я спілкуюся з людьми з найрізноманітніших підприємств, і є місця, де впровадження ШІ займе роки. Ось чому мій прогноз про витіснення 50% початкових офісних робочих місць становить 1–5 років, хоча я підозрюю, що у нас буде потужний ШІ (який, з технологічної точки зору, буде достатній для виконання більшості або всіх робочих місць, а не тільки початкових) набагато раніше, ніж через 5 років. Але ефекти поширення лише виграють нам час. І я не впевнений, що вони будуть такими повільними, як передбачають люди. Впровадження ШІ на підприємствах зростає набагато швидше, ніж будь-яка попередня технологія, значною мірою завдяки чистій силі самої технології. Крім того, навіть якщо традиційні підприємства повільно впроваджують нові технології, з’являться стартапи, які будуть служити «клеєм» і полегшувати впровадження. Якщо це не спрацює, стартапи можуть просто безпосередньо порушувати роботу діючих компаній.
Це може призвести до світу, де справа не стільки в тому, що порушуються конкретні робочі місця, скільки в тому, що порушуються великі підприємства в цілому і замінюються набагато менш трудомісткими стартапами. Це також може призвести до світу «географічної нерівності», коли зростаюча частка світового багатства концентрується в Кремнієвій долині, яка стає власною економікою, що працює з іншою швидкістю, ніж решта світу, і залишає його позаду. Всі ці результати були б чудові для економічного зростання — але не так чудові для ринку праці або тих, хто залишився позаду.
По-друге, деякі люди говорять, що людські робочі місця перемістяться у фізичний світ, що дозволяє уникнути всієї категорії «когнітивної праці», де ШІ так швидко прогресує. Я не впевнений, наскільки це безпечно. Багато фізичної праці вже виконується машинами (наприклад, виробництво) або скоро буде виконуватися машинами (наприклад, водіння). Крім того, достатньо потужний ШІ зможе прискорити розробку роботів, а потім керувати цими роботами у фізичному світі. Це може виграти деякий час (що добре), але я турбуюся, що не дуже багато. І навіть якщо порушення буде обмежено лише когнітивними завданнями, воно все одно буде безпрецедентно великим і швидким.
По-третє, можливо, деякі завдання за своєю суттю вимагають або значно виграють від людського дотику. Я трохи більш невизначений у цьому питанні, але все ще скептично ставлюся до того, що цього буде достатньо, щоб компенсувати основну частину впливів, описаних мною вище. ШІ вже широко використовується для обслуговування клієнтів. Багато людей повідомляють, що їм легше говорити зі ШІ про свої особисті проблеми, ніж з терапевтом — що ШІ більш терплячий. Коли моя сестра боролася з медичними проблемами під час вагітності, вона відчувала, що не отримує відповідей або підтримки, в яких потребувала, від своїх медичних працівників, і вона виявила, що Клод володіє кращими манерами спілкування (а також краще справлявся з діагностикою проблеми). Я впевнений, що є деякі завдання, для яких людський дотик дійсно важливий, але я не впевнений, скільки їх — і тут ми говоримо про пошук роботи майже для кожного на ринку праці.
По-четверте, деякі можуть стверджувати, що порівняльна перевага все ще буде захищати людей. Згідно з законом порівняльних переваг, навіть якщо ШІ кращий за людей у всьому, будь-які відносні відмінності між профілем навичок людини та ШІ створюють основу для торгівлі та спеціалізації між людьми та ШІ. Проблема в тому, що якщо ШІ буквально в тисячі разів продуктивніший за людей, ця логіка починає руйнуватися. Навіть крихітні транзакційні витрати можуть зробити торгівлю ШІ з людьми невигідною. І заробітна плата людей може бути дуже низькою, навіть якщо вони технічно можуть щось запропонувати.
Можливо, всі ці фактори можуть бути вирішені — що ринок праці достатньо стійкий, щоб адаптуватися навіть до таких величезних потрясінь. Але навіть якщо він врешті-решт зможе адаптуватися, вищезгадані фактори припускають, що короткостроковий шок буде безпрецедентним за своїми масштабами.
Захист
Що ми можемо зробити з цією проблемою? У мене є кілька пропозицій, деякі з яких Anthropic вже реалізує. Перше — це просто отримувати точні дані про те, що відбувається з витісненням робочих місць у реальному часі. Коли економічні зміни відбуваються дуже швидко, важко отримати надійні дані про те, що відбувається, а без надійних даних важко розробити ефективну політику. Наприклад, державним даним в даний час не вистачає деталізованих, високочастотних даних про впровадження ШІ у фірмах та галузях. Протягом останнього року Anthropic управляє та публічно випускає Економічний індекс, який показує використання наших моделей майже в реальному часі, з розбивкою за галузями, завданнями, місцем розташування і навіть такими речами, як чи автоматизувалася задача або виконувалася спільно. У нас також є Економічна консультативна рада, яка допомагає нам інтерпретувати ці дані та бачити, що нас чекає.
По-друге, компанії ШІ мають вибір у тому, як вони працюють з підприємствами. Сама неефективність традиційних підприємств означає, що їхнє впровадження ШІ може бути дуже залежним від шляху, і є деякий простір для вибору кращого шляху. Підприємства часто мають вибір між «економією витрат» (робити те саме з меншою кількістю людей) та «інноваціями» (робити більше з тією самою кількістю людей). Ринок неминуче створить і те, й інше врешті-решт, і будь-яка конкурентоспроможна компанія ШІ повинна буде обслуговувати і те, й інше, але може бути деякий простір для направлення компаній до інновацій, коли це можливо, і це може виграти нам деякий час. Anthropic активно про це думає.
По-третє, компанії повинні подумати про те, як дбати про своїх співробітників. У короткостроковій перспективі творчий підхід до перерозподілу співробітників всередині компаній може бути багатообіцяючим способом відстрочити необхідність звільнень. У довгостроковій перспективі, у світі з величезним загальним багатством, у якому багато компаній значно збільшують свою вартість завдяки зростаючій продуктивності та концентрації капіталу, може бути можливо платити людським співробітникам навіть довго після того, як вони перестануть приносити економічну цінність у традиційному сенсі. Anthropic в даний час розглядає низку можливих шляхів для своїх співробітників, про які ми повідомимо в найближчому майбутньому.
По-четверте, багаті люди зобов’язані допомогти вирішити цю проблему. Мені сумно, що багато багатих людей (особливо в технологічній індустрії) нещодавно прийняли цинічне та нігілістичне ставлення до того, що благодійність неминуче шахрайська або марна. Як приватна благодійність, така як Фонд Гейтсів, так і державні програми, такі як PEPFAR, врятували десятки мільйонів життів у країнах, що розвиваються, і допомогли створити економічні можливості в розвинених країнах. Всі співзасновники Anthropic зобов’язалися пожертвувати 80% свого статку, а співробітники Anthropic індивідуально зобов’язалися пожертвувати акції компанії на мільярди доларів за поточними цінами — пожертви, які компанія зобов’язалася подвоїти.
По-п’яте, хоча всі вищезгадані приватні дії можуть бути корисні, врешті-решт така велика макроекономічна проблема вимагатиме державного втручання. Природна політична реакція на величезний економічний пиріг у поєднанні з високою нерівністю (через відсутність робочих місць або погано оплачуваних робочих місць для багатьох) — це прогресивне оподаткування. Податок може бути загальним або може бути спрямований проти компаній ШІ зокрема. Очевидно, що розробка податків складна, і є багато способів, якими вона може піти не так. Я не підтримую погано розроблені податкові політики. Я думаю, що екстремальні рівні нерівності, передбачені в цьому есе, виправдовують більш надійну податкову політику на основні моральні принципи, але я також можу навести прагматичний аргумент для мільярдерів світу, що в їхніх інтересах підтримати хорошу версію цього: якщо вони не підтримають хорошу версію, вони неминуче отримають погану версію, розроблену натовпом.
В кінцевому підсумку, я розглядаю всі вищезгадані втручання як способи виграти час. Зрештою ШІ зможе робити все, і ми повинні з цим змиритися. Я сподіваюся, що до того часу ми зможемо використовувати сам ШІ, щоб допомогти нам реструктурувати ринки таким чином, щоб вони працювали для всіх, і що вищезгадані втручання допоможуть нам пройти через перехідний період.
Економічна концентрація влади
Окремо від проблеми витіснення робочих місць або економічної нерівності як такої стоїть проблема економічної концентрації влади. У розділі 1 обговорювався ризик того, що людство буде позбавлене влади ШІ, а в розділі 3 обговорювався ризик того, що громадяни будуть позбавлені влади своїми урядами силою або примусом. Але інший вид позбавлення влади може статися, якщо буде така величезна концентрація багатства, що невелика група людей фактично контролює державну політику своїм впливом, а звичайні громадяни не мають впливу, тому що їм бракує економічного важеля. Демократія в кінцевому підсумку підтримується ідеєю, що населення в цілому необхідне для функціонування економіки. Якщо цей економічний важіль зникає, то неявний суспільний договір демократії може перестати працювати. Інші писали про це, тому мені не потрібно вдаватися в подробиці тут, але я згоден з цим занепокоєнням, і я турбуюся, що це вже починає відбуватися.
Щоб бути ясним, я не проти того, щоб люди заробляли багато грошей. Є вагомий аргумент, що це стимулює економічне зростання в нормальних умовах. Я співчуваю побоюванням щодо перешкоджання інноваціям шляхом вбивства золотої гуски, яка їх генерує. Але в сценарії, коли зростання ВВП становить 10–20% на рік, а ШІ швидко захоплює економіку, але окремі особи володіють значними частками ВВП, інновації — це не те, про що варто турбуватися. Турбуватися варто про рівень концентрації багатства, який зруйнує суспільство.
Найвідоміший приклад екстремальної концентрації багатства в історії США — це Позолочений вік, і найбагатшим промисловцем Позолоченого віку був Джон Д. Рокфеллер. Статок Рокфеллера становив близько 2% ВВП США в той час.42 Аналогічна частка сьогодні призвела б до статку в 600 мільярдів доларів, і найбагатша людина в світі сьогодні (Ілон Маск) вже перевищує це, маючи приблизно 700 мільярдів доларів. Таким чином, ми вже знаходимося на історично безпрецедентних рівнях концентрації багатства, навіть до більшої частини економічного впливу ШІ. Я не думаю, що це занадто велике перебільшення (якщо ми отримаємо «країну геніїв») уявити, що компанії ШІ, напівпровідникові компанії і, можливо, компанії-розробники додатків будуть генерувати близько 3 трильйонів доларів доходу на рік,43 оцінюватися в 30 трильйонів доларів і призводити до особистих статків, що обчислюються трильйонами. У такому світі дебати, які ми ведемо сьогодні про податкову політику, просто не будуть застосовні, оскільки ми опинимося в принципово іншій ситуації.
З цим пов’язано те, що поєднання цієї економічної концентрації багатства з політичною системою вже турбує мене. Центри обробки даних ШІ вже становлять значну частку економічного зростання США,44 і, таким чином, міцно пов’язують фінансові інтереси великих технологічних компаній (які все більше зосереджені або на ШІ, або на інфраструктурі ШІ) та політичні інтереси уряду таким чином, що це може породжувати збочені стимули. Ми вже бачимо це через небажання технологічних компаній критикувати уряд США та підтримку урядом екстремальних антирегуляторних політик щодо ШІ.
Захист
Що можна зробити з цим? По-перше, і це найбільш очевидно, компанії повинні просто вибрати не бути частиною цього. Anthropic завжди прагнула бути політичним актором, а не політичним, і зберігати свої справжні погляди незалежно від адміністрації. Ми виступали на користь розумного регулювання ШІ та експортного контролю, що відповідають суспільним інтересам, навіть коли вони суперечать державній політиці.45 Багато людей говорили мені, що ми повинні припинити це робити, що це може призвести до несприятливого ставлення, але за рік, що ми цим займаємося, оцінка Anthropic зросла більш ніж у 6 разів, що є майже безпрецедентним стрибком у нашому комерційному масштабі.
По-друге, ШІ-індустрії потрібні більш здорові відносини з урядом — засновані на предметній політичній взаємодії, а не на політичному вирівнюванні. Наш вибір займатися політичною сутністю, а не політикою, іноді сприймається як тактична помилка або нездатність «зрозуміти ситуацію», а не як принципове рішення, і це формулювання мене турбує. У здоровій демократії компанії повинні мати можливість виступати за хорошу політику заради неї самої. З цим пов’язано те, що наростає суспільна негативна реакція проти ШІ: це може бути коригуючим фактором, але в даний час вона несфокусована. Більша частина її націлена на проблеми, які насправді не є проблемами (наприклад, споживання води центрами обробки даних) і пропонує рішення (наприклад, заборони на центри обробки даних або погано розроблені податки на багатство), які не вирішать реальні проблеми. Основна проблема, що заслуговує на увагу, — це забезпечення того, щоб розробка ШІ залишалася підзвітною суспільним інтересам, не захопленою будь-яким конкретним політичним або комерційним альянсом, і здається важливим зосередити громадську дискусію там.
По-третє, макроекономічні втручання, описані мною раніше в цьому розділі, а також відродження приватної благодійності можуть допомогти збалансувати економічні ваги, вирішуючи проблеми як витіснення робочих місць, так і концентрації економічної влади одночасно. Ми повинні звернутися до історії нашої країни: навіть у Позолочений вік промисловці, такі як Рокфеллер і Карнегі, відчували сильне зобов’язання перед суспільством в цілому, почуття, що суспільство зробило величезний внесок у їхній успіх, і їм потрібно було відплатити. Цей дух, здається, все більше відсутній сьогодні, і я думаю, що це велика частина шляху виходу з цієї економічної дилеми. Ті, хто знаходиться на передньому краї економічного буму ШІ, повинні бути готові віддати як своє багатство, так і свою владу.
5. Чорні моря нескінченності
Непрямі наслідки
Цей останній розділ є загальним терміном для невідомих невідомих, зокрема, для речей, які можуть піти не так як непрямий результат позитивних досягнень у ШІ та подальшого прискорення науки та технологій в цілому. Припустимо, ми усунемо всі описані досі ризики і почнемо пожинати плоди ШІ. Ми, ймовірно, отримаємо «вік наукового та економічного прогресу, стиснутий у десятиліття», і це буде надзвичайно позитивно для світу, але потім нам доведеться боротися з проблемами, які виникають через цей швидкий темп прогресу, і ці проблеми можуть швидко наздогнати нас. Ми також можемо зіткнутися з іншими ризиками, які виникають непрямо як наслідок прогресу ШІ і які важко передбачити заздалегідь.
За самою природою невідомих невідомих неможливо скласти вичерпний список, але я перерахую три можливі проблеми як ілюстративні приклади того, за чим нам слід стежити:
- Швидкі досягнення в біології. Якщо ми дійсно отримаємо вік медичного прогресу за кілька років, можливо, ми значно збільшимо тривалість життя людини, і є шанс, що ми також отримаємо радикальні можливості, такі як здатність збільшувати людський інтелект або радикально змінювати біологію людини. Це були б великі зміни в тому, що можливо, що відбуваються дуже швидко. Вони могли б бути позитивними, якби були зроблені відповідально (на що я сподіваюся, як описано в «Машинах люблячої благодаті»), але завжди є ризик, що вони підуть дуже не так — наприклад, якщо зусилля з підвищення інтелекту людей також зроблять їх більш нестабільними або жадібними до влади. Існує також проблема «завантажень» або «емуляції всього мозку», цифрових людських умів, реалізованих у програмному забезпеченні, які колись можуть допомогти людству перевершити свої фізичні обмеження, але які також несуть ризики, які я знаходжу тривожними.
- ШІ змінює людське життя нездоровим чином. Світ з мільярдами інтелектів, які в усьому набагато розумніші за людей, буде дуже дивним світом для життя. Навіть якщо ШІ не активно прагне атакувати людей (Розділ 1) і не явно використовується для гноблення або контролю державами (Розділ 3), багато чого може піти не так, крім цього, через звичайні ділові стимули та номінально добровільні транзакції. Ми бачимо ранні натяки на це в побоюваннях щодо ШІ-психозу, ШІ, що доводить людей до самогубства, і побоюваннях щодо романтичних стосунків зі ШІ. В якості прикладу: чи можуть потужні ШІ винайти нову релігію і навернути в неї мільйони людей? Чи можуть більшість людей врешті-решт стати «залежними» якимось чином від взаємодії зі ШІ? Чи можуть люди врешті-решт бути «керовані» системами ШІ, де ШІ по суті відстежує кожен їхній рух і постійно говорить їм, що робити і говорити, що призводить до «хорошого» життя, але позбавленого свободи або гордості за досягнення? Було б неважко згенерувати десятки таких сценаріїв, якби я сів з творцем «Чорного дзеркала» і спробував їх придумати. Я думаю, це вказує на важливість таких речей, як покращення Конституції Клода, крім того, що необхідно для запобігання проблемам, описаним у Розділі 1. Переконатися, що моделі ШІ дійсно дбають про довгострокові інтереси своїх користувачів, таким чином, який схвалили б вдумливі люди, а не якимось тонко спотвореним чином, здається критично важливим.
- Людська мета. Це пов’язано з попереднім пунктом, але йдеться не стільки про конкретні взаємодії людини з системами ШІ, скільки про те, як людське життя змінюється в цілому у світі з потужним ШІ. Чи зможуть люди знайти мету та сенс у такому світі? Я думаю, це питання ставлення: як я сказав у «Машинах люблячої благодаті», я думаю, що людська мета не залежить від того, щоб бути найкращим у світі в чомусь, і люди можуть знайти мету навіть протягом дуже довгих періодів часу через історії та проекти, які вони люблять. Нам просто потрібно розірвати зв’язок між створенням економічної цінності та самооцінкою та сенсом. Але це перехід, який має здійснити суспільство, і завжди є ризик, що ми не впораємося з ним добре.
Моя надія щодо всіх цих потенційних проблем полягає в тому, що у світі з потужним ШІ, якому ми довіряємо, щоб він нас не вбив, який не є інструментом репресивного уряду і який щиро працює на нас, ми зможемо використовувати сам ШІ для передбачення та запобігання цих проблем. Але це не гарантовано — як і всі інші ризики, це те, з чим ми повинні поводитися обережно.
Випробування людства
Читання цього есе може створити враження, що ми знаходимося в страхітливій ситуації. Мені, безумовно, було страхітливо його писати, на відміну від «Машин милосердної благодаті», яке здавалося наданням форми та структури надзвичайно красивій музиці, яка роками звучала в моїй голові. І багато чого в цій ситуації дійсно важко. ШІ несе загрози людству з багатьох сторін, і існує справжня напруга між різними небезпеками, де пом’якшення деяких з них ризикує погіршити інші, якщо ми не будемо діяти надзвичайно обережно.
Час, що витрачається на ретельне створення систем ШІ, щоб вони автономно не загрожували людству, знаходиться в справжньому протиріччі з необхідністю демократичних націй випереджати авторитарні нації і не бути підкореними ними. Але, в свою чергу, ті самі інструменти, підтримувані ШІ, які необхідні для боротьби з автократіями, якщо їх зайти занадто далеко, можуть бути звернені всередину, щоб створити тиранію в наших власних країнах. Тероризм, рухомий ШІ, може вбити мільйони людей через зловживання біологією, але надмірна реакція на цей ризик може привести нас до авторитарної держави спостереження. Вплив ШІ на ринок праці та концентрацію економічної влади, крім того, що є серйозними проблемами самі по собі, можуть змусити нас зіткнутися з іншими проблемами в умовах суспільного гніву і, можливо, навіть громадянських заворушень, замість того щоб мати можливість звернутися до кращих ангелів нашої натури. Перш за все, сама кількість ризиків, включаючи невідомі, і необхідність справлятися з усіма ними одночасно, створює страхітливе випробування, яке людство повинно пройти.
Більше того, останні кілька років повинні ясно показати, що ідея зупинити або навіть суттєво сповільнити технологію принципово неспроможна. Формула створення потужних систем ШІ неймовірно проста, настільки, що можна сказати, що вона майже спонтанно виникає з правильного поєднання даних і необроблених обчислень. Її створення, ймовірно, було неминучим у той момент, коли людство винайшло транзистор, або, можливо, навіть раніше, коли ми вперше навчилися керувати вогнем. Якщо одна компанія не побудує її, інші зроблять це майже так само швидко. Якщо всі компанії в демократичних країнах зупинять або сповільнять розробку за взаємною згодою або регулюючим указом, то авторитарні країни просто продовжать. Враховуючи неймовірну економічну та військову цінність технології, а також відсутність будь-якого значущого механізму примусу, я не бачу, як ми могли б переконати їх зупинитися.
Я бачу шлях до незначного уповільнення в розвитку ШІ, сумісний з реалістичним поглядом на геополітику. Цей шлях включає уповільнення просування автократій до потужного ШІ на кілька років шляхом відмови їм у ресурсах, необхідних для його створення,46 а саме в чіпах та обладнанні для виробництва напівпровідників. Це, в свою чергу, дає демократичним країнам буфер, який вони можуть «витратити» на більш обережне створення потужного ШІ, приділяючи більше уваги його ризикам, при цьому просуваючись достатньо швидко, щоб комфортно перемогти автократії. Гонка між компаніями ШІ в демократичних країнах потім може регулюватися в рамках загальної правової бази, за допомогою поєднання галузевих стандартів та регулювання.
Anthropic дуже активно виступала за цей шлях, просуваючи контроль за експортом чіпів та розумне регулювання ШІ, але навіть ці, здавалося б, розсудливі пропозиції були значною мірою відкинуті політиками в Сполучених Штатах (країні, де вони найбільш важливі). З ШІ можна заробити так багато грошей — буквально трильйони доларів на рік — що навіть найпростіші заходи ледве долають політичну економію, притаманну ШІ. Це пастка: ШІ настільки потужний, такий блискучий приз, що людській цивілізації дуже важко накласти на нього будь-які обмеження.
Я можу уявити, як Саган у «Контакті», що ця ж історія розігрується на тисячах світів. Вид набуває розуму, вчиться використовувати інструменти, починає експоненціальний підйом технологій, стикається з кризами індустріалізації та ядерної зброї, і якщо він переживає їх, то стикається з найважчим і останнім випробуванням, коли вчиться перетворювати пісок на машини, які мислять. Чи виживемо ми в цьому випробуванні і побудуємо прекрасне суспільство, описане в «Машинах милосердної благодаті», або піддамося рабству та руйнуванню, залежатиме від нашого характеру та нашої рішучості як виду, нашого духу та нашої душі.
Незважаючи на безліч перешкод, я вірю, що людство володіє внутрішньою силою, щоб пройти це випробування. Мене надихають тисячі дослідників, які присвятили свою кар’єру допомозі нам у розумінні та управлінні моделями ШІ, а також у формуванні характеру та конституції цих моделей. Я думаю, що тепер є хороший шанс, що ці зусилля принесуть плоди вчасно, щоб мати значення. Мене надихає те, що принаймні деякі компанії заявили, що вони готові нести значні комерційні витрати, щоб блокувати внесок своїх моделей у загрозу біотероризму. Мене надихає те, що кілька хоробрих людей чинили опір переважаючим політичним вітрам і прийняли законодавство, яке закладає перші ранні зерна розумних заходів безпеки для систем ШІ. Мене надихає те, що громадськість розуміє, що ШІ несе ризики, і хоче, щоб ці ризики були усунені. Мене надихає незламний дух свободи по всьому світу та рішучість чинити опір тиранії, де б вона не виникала.
Але нам потрібно активізувати наші зусилля, якщо ми хочемо досягти успіху. Перший крок для тих, хто найближче до технології, — це просто сказати правду про ситуацію, в якій знаходиться людство, що я завжди намагався робити; я роблю це більш явно і з більшою терміновістю в цьому есе. Наступним кроком буде переконання мислителів, політиків, компаній та громадян світу в невідкладності та першочерговій важливості цього питання — що варто витрачати думки та політичний капітал на це порівняно з тисячами інших проблем, які домінують у новинах кожен день. Потім настане час для мужності, для достатньої кількості людей, щоб протистояти переважаючим тенденціям і стояти на принципах, навіть перед обличчям загроз їхнім економічним інтересам та особистій безпеці.
Майбутні роки будуть неймовірно важкими, вимагаючи від нас більшого, ніж ми думаємо, що можемо дати. Але за час моєї роботи дослідником, лідером та громадянином я бачив достатньо мужності та благородства, щоб вірити, що ми можемо перемогти — що, опинившись у найпохмуріших обставинах, людство знаходить спосіб зібрати, здавалося б, в останню хвилину, силу та мудрість, необхідні для перемоги. Нам не можна втрачати ні хвилини.
Я хотів би подякувати Еріку Брінйолфссону, Бену Бьюкенену, Маріано-Флорентіно Куельяру, Аллану Дафо, Кевіну Есвельту, Ніку Бекстеду, Річарду Фонтейну, Джиму МакКлейву та багатьом співробітникам Anthropic за їхні корисні коментарі до чернеток цього есе.
Переклад статті Даріо Амадея “Підлітковий вік технологій”


