Противостояние и преодоление рисков мощного ИИ
Январь 2026
В экранизации книги Карла Сагана «Контакт» есть сцена, где главную героиню, астронома, обнаружившую первый радиосигнал от внеземной цивилизации, рассматривают на роль представителя человечества для встречи с инопланетянами. Международная комиссия, проводящая собеседование, спрашивает её: «Если бы вы могли задать [инопланетянам] только один вопрос, что бы это было?» Её ответ: «Я бы спросила их: „Как вы это сделали? Как вы эволюционировали, как вы пережили это технологическое отрочество, не уничтожив себя?“» Когда я думаю о том, где человечество находится сейчас с ИИ — о том, на пороге чего мы стоим, — мой разум постоянно возвращается к этой сцене, потому что вопрос так уместен для нашей текущей ситуации, и я бы хотела, чтобы у нас был ответ инопланетян, чтобы он направлял нас. Я верю, что мы вступаем в обряд посвящения, одновременно бурный и неизбежный, который проверит, кто мы как вид. Человечеству вот-вот будет вручена почти невообразимая мощь, и совершенно неясно, обладают ли наши социальные, политические и технологические системы достаточной зрелостью, чтобы ею управлять.
В своём эссе «Машины милосердной благодати» я попытался изложить мечту о цивилизации, достигшей зрелости, где риски были устранены, а мощный ИИ применялся умело и с состраданием для повышения качества жизни каждого. Я предположил, что ИИ может способствовать огромным прорывам в биологии, нейробиологии, экономическом развитии, глобальном мире, а также в работе и смысле жизни. Я чувствовал, что важно дать людям что-то вдохновляющее, за что стоит бороться, — задача, с которой, как ни странно, не справились ни сторонники ускорения ИИ, ни сторонники безопасности ИИ. Но в этом текущем эссе я хочу столкнуться с самим обрядом посвящения: наметить риски, с которыми мы вот-вот столкнёмся, и попытаться начать разрабатывать план борьбы с ними. Я глубоко верю в нашу способность выстоять, в дух человечества и его благородство, но мы должны взглянуть на ситуацию прямо и без иллюзий.
Как и в случае с обсуждением преимуществ, я считаю важным обсуждать риски тщательно и обдуманно. В частности, я считаю критически важным:
- Избегать думеризма. Здесь под «думеризмом» я подразумеваю не только веру в неизбежность гибели (что является как ложным, так и самосбывающимся убеждением), но, в более общем смысле, мышление о рисках ИИ квазирелигиозным образом. Многие люди на протяжении многих лет аналитически и трезво размышляли о рисках ИИ, но у меня сложилось впечатление, что на пике беспокойства о рисках ИИ в 2023–2024 годах на первый план вышли некоторые из наименее разумных голосов, часто через сенсационные аккаунты в социальных сетях. Эти голоса использовали отталкивающий язык, напоминающий религиозный или научно-фантастический, и призывали к экстремальным действиям, не имея доказательств, которые бы их оправдывали. Уже тогда было ясно, что ответная реакция неизбежна, и что проблема станет культурно поляризованной и, следовательно, зашедшей в тупик. По состоянию на 2025–2026 годы маятник качнулся, и многие политические решения теперь движутся возможностями ИИ, а не рисками ИИ. Это колебание прискорбно, поскольку сама технология не заботится о том, что модно, и в 2026 году мы значительно ближе к реальной опасности, чем в 2023 году. Урок состоит в том, что нам нужно обсуждать и решать риски реалистичным, прагматичным образом: трезвым, основанным на фактах и хорошо приспособленным к меняющимся течениям.
- Признавать неопределённость. Существует множество способов, которыми опасения, которые я поднимаю в этой статье, могут оказаться неактуальными. Ничто здесь не предназначено для сообщения об уверенности или даже вероятности. Очевиднее всего, ИИ может просто не развиваться так быстро, как я себе представляю. Или, даже если он будет развиваться быстро, некоторые или все обсуждаемые здесь риски могут не материализоваться (что было бы замечательно), или могут возникнуть другие риски, которые я не учёл. Никто не может предсказать будущее с полной уверенностью — но мы должны сделать всё возможное, чтобы всё равно планировать.
- Вмешиваться максимально точечно. Решение рисков ИИ потребует сочетания добровольных действий, предпринимаемых компаниями (и частными сторонними акторами), и действий, предпринимаемых правительствами, которые обязательны для всех. Добровольные действия — как их принятие, так и поощрение других компаний следовать их примеру — для меня очевидны. Я твёрдо верю, что действия правительства также потребуются в определённой степени, но эти вмешательства отличаются по характеру, потому что они потенциально могут уничтожить экономическую ценность или принудить нежелающих участников, которые скептически относятся к этим рискам (и есть некоторый шанс, что они правы!). Также часто бывает, что регулирование даёт обратный эффект или усугубляет проблему, которую оно призвано решить (и это ещё более верно для быстро меняющихся технологий). Поэтому очень важно, чтобы регулирование было разумным: оно должно стремиться избегать сопутствующего ущерба, быть максимально простым и налагать минимально необходимое бремя для выполнения работы.4 Легко сказать: «Никакие действия не являются слишком радикальными, когда на кону судьба человечества!», но на практике такое отношение просто приводит к негативной реакции. Чтобы быть ясным, я думаю, что есть неплохой шанс, что мы в конечном итоге достигнем точки, когда потребуются гораздо более значительные действия, но это будет зависеть от более убедительных доказательств неминуемой, конкретной опасности, чем те, что у нас есть сегодня, а также от достаточной специфичности опасности, чтобы сформулировать правила, которые имеют шанс решить её. Самое конструктивное, что мы можем сделать сегодня, — это выступать за ограниченные правила, пока мы не узнаем, есть ли доказательства в поддержку более строгих.
При всём сказанном, я думаю, что лучшая отправная точка для разговора о рисках ИИ — это то же место, с которого я начал говорить о его преимуществах: быть точным в отношении того, о каком уровне ИИ мы говорим. Уровень ИИ, который вызывает у меня цивилизационные опасения, — это мощный ИИ, который я описал в «Машинах любяшей благодати». Я просто повторю здесь определение, которое я дал в том документе:
Под «мощным ИИ» я подразумеваю модель ИИ — вероятно, по форме похожую на сегодняшние БЯМ (большие языковые модели), хотя она может быть основана на другой архитектуре, может включать несколько взаимодействующих моделей и может обучаться по-другому — со следующими свойствами:
- С точки зрения чистого интеллекта, она умнее лауреата Нобелевской премии в большинстве соответствующих областей: биологии, программировании, математике, инженерии, писательстве и т. д. Это означает, что она может доказывать нерешённые математические теоремы, писать чрезвычайно хорошие романы, создавать сложные кодовые базы с нуля и т. д.
- Помимо того, что это просто «умная вещь, с которой вы разговариваете», она имеет все интерфейсы, доступные человеку, работающему виртуально, включая текст, аудио, видео, управление мышью и клавиатурой, а также доступ в интернет. Она может участвовать в любых действиях, коммуникациях или удалённых операциях, обеспечиваемых этим интерфейсом, включая совершение действий в интернете, принятие или дачу указаний людям, заказ материалов, руководство экспериментами, просмотр видео, создание видео и так далее. Все эти задачи она выполняет, опять же, с навыками, превосходящими навыки самых способных людей в мире.
- Она не просто пассивно отвечает на вопросы; вместо этого ей можно давать задачи, выполнение которых занимает часы, дни или недели, а затем она автономно выполняет эти задачи, как умный сотрудник, запрашивая разъяснения по мере необходимости.
- Она не имеет физического воплощения (кроме существования на экране компьютера), но может управлять существующими физическими инструментами, роботами или лабораторным оборудованием через компьютер; теоретически, она могла бы даже проектировать роботов или оборудование для собственного использования.
- Ресурсы, используемые для обучения модели, могут быть перепрофилированы для запуска миллионов её экземпляров (это соответствует прогнозируемым размерам кластеров к ~2027 году), и модель может поглощать информацию и генерировать действия примерно в 10–100 раз быстрее человека. Однако она может быть ограничена временем отклика физического мира или программного обеспечения, с которым она взаимодействует.
- Каждый из этих миллионов экземпляров может действовать независимо над несвязанными задачами, или, при необходимости, все могут работать вместе так же, как сотрудничали бы люди, возможно, с различными подгруппами, тонко настроенными на особенно хорошее выполнение конкретных задач.
Мы могли бы подытожить это как «страна гениев в центре обработки данных».
Как я писал в «Машинах любяшей благодати», мощный ИИ может появиться уже через 1–2 года, хотя он также может быть значительно дальше.6 Точное время появления мощного ИИ — сложная тема, заслуживающая отдельного эссе, но пока я просто очень кратко объясню, почему я думаю, что есть большая вероятность, что это произойдёт очень скоро.
Мои соучредители в Anthropic и я были одними из первых, кто задокументировал и отслеживал «законы масштабирования» систем ИИ — наблюдение, что по мере добавления вычислительной мощности и обучающих задач системы ИИ предсказуемо улучшаются практически во всех когнитивных навыках, которые мы можем измерить. Каждые несколько месяцев общественное мнение либо убеждается, что ИИ «упирается в стену», либо приходит в восторг от какого-то нового прорыва, который «фундаментально изменит правила игры», но правда в том, что за волатильностью и публичными спекуляциями скрывается плавное, неуклонное увеличение когнитивных способностей ИИ.
Мы сейчас находимся на той стадии, когда модели ИИ начинают добиваться прогресса в решении нерешённых математических задач и достаточно хорошо справляются с кодированием, что некоторые из самых сильных инженеров, которых я когда-либо встречал, теперь передают почти всё своё кодирование ИИ. Три года назад ИИ с трудом справлялся с арифметическими задачами начальной школы и едва был способен написать одну строку кода. Аналогичные темпы улучшения наблюдаются в биологических науках, финансах, физике и различных агентных задачах. Если экспоненциальный рост продолжится — что не является определённым, но теперь имеет десятилетний послужной список, подтверждающий это, — то не может быть и речи о том, что пройдёт более нескольких лет, прежде чем ИИ станет лучше людей практически во всём.
На самом деле, эта картина, вероятно, недооценивает вероятные темпы прогресса. Поскольку ИИ теперь пишет большую часть кода в Anthropic, он уже существенно ускоряет темпы нашего прогресса в создании следующего поколения систем ИИ. Эта петля обратной связи набирает обороты месяц за месяцем и, возможно, всего через 1–2 года достигнет точки, когда текущее поколение ИИ автономно построит следующее. Этот цикл уже начался и будет быстро ускоряться в ближайшие месяцы и годы. Наблюдая за прогрессом последних 5 лет изнутри Anthropic и видя, как формируются модели даже следующих нескольких месяцев, я чувствую темп прогресса и обратный отсчёт.
В этом эссе я буду исходить из того, что эта интуиция по крайней мере в некоторой степени верна — не то, что мощный ИИ определённо появится через 1–2 года,7 но что есть неплохой шанс, что это произойдёт, и очень большой шанс, что это произойдёт в ближайшие несколько лет. Как и в случае с «Машинами милосердной благодати», серьёзное отношение к этой предпосылке может привести к некоторым удивительным и жутковатым выводам. Если в «Машинах любящей благодати» я сосредоточился на позитивных последствиях этой предпосылки, то здесь то, о чём я буду говорить, будет тревожным. Это выводы, с которыми мы, возможно, не захотим сталкиваться, но это не делает их менее реальными. Я могу лишь сказать, что днём и ночью сосредоточен на том, как увести нас от этих негативных исходов и направить к позитивным, и в этом эссе я очень подробно рассказываю о том, как лучше всего это сделать.
Я думаю, что лучший способ разобраться в рисках ИИ — это задать следующий вопрос: предположим, что буквально «страна гениев» материализовалась где-то в мире примерно в 2027 году. Представьте, скажем, 50 миллионов человек, каждый из которых гораздо способнее любого лауреата Нобелевской премии, государственного деятеля или технолога. Аналогия не идеальна, потому что у этих гениев может быть чрезвычайно широкий спектр мотиваций и поведения, от полностью податливых и послушных до странных и чуждых в своих мотивациях. Но, придерживаясь аналогии, предположим, что вы советник по национальной безопасности крупного государства, ответственный за оценку ситуации и реагирование на неё. Представьте, далее, что, поскольку системы ИИ могут работать в сотни раз быстрее людей, эта «страна» действует с временным преимуществом по сравнению со всеми другими странами: на каждое наше когнитивное действие эта страна может совершить десять.
О чём вам следует беспокоиться? Я бы беспокоился о следующем:
- Риски автономии. Каковы намерения и цели этой страны? Враждебна ли она или разделяет наши ценности? Может ли она доминировать в мире в военном отношении посредством превосходного оружия, киберопераций, операций влияния или производства?
- Злоупотребление для разрушения. Предположим, новая страна податлива и «следует инструкциям» — и, таким образом, по сути является страной наёмников. Могут ли существующие недобросовестные акторы, желающие причинить разрушения (например, террористы), использовать или манипулировать некоторыми людьми в новой стране, чтобы значительно повысить свою эффективность, значительно усилив масштабы разрушений?
- Злоупотребление для захвата власти. Что, если страна была фактически построена и контролируется существующим могущественным актором, таким как диктатор или недобросовестный корпоративный актор? Может ли этот актор использовать её для получения решающей или доминирующей власти над миром в целом, нарушив существующий баланс сил?
- Экономические потрясения. Если новая страна не является угрозой безопасности ни одним из способов, перечисленных в пунктах 1–3 выше, но просто мирно участвует в мировой экономике, может ли она всё равно создать серьёзные риски, просто будучи настолько технологически продвинутой и эффективной, что нарушит мировую экономику, вызвав массовую безработицу или радикально сконцентрировав богатство?
- Косвенные последствия. Мир очень быстро изменится из-за всех новых технологий и производительности, которые будут созданы новой страной. Могут ли некоторые из этих изменений быть радикально дестабилизирующими?
Я думаю, должно быть ясно, что это опасная ситуация — отчёт компетентного сотрудника национальной безопасности главе государства, вероятно, содержал бы слова вроде «самая серьёзная угроза национальной безопасности, с которой мы сталкивались за столетие, возможно, за всё время». Кажется, это то, на чём должны сосредоточиться лучшие умы цивилизации.
И наоборот, я думаю, было бы абсурдно пожимать плечами и говорить: «Здесь не о чем беспокоиться!» Но, столкнувшись с быстрым прогрессом ИИ, это, похоже, мнение многих американских политиков, некоторые из которых отрицают существование каких-либо рисков ИИ, когда они не отвлекаются полностью на обычные избитые острые проблемы.8 Человечеству нужно проснуться, и это эссе — попытка, возможно, тщетная, но стоит попробовать — встряхнуть людей.
Чтобы быть ясным, я верю, что если мы будем действовать решительно и осторожно, риски можно преодолеть — я бы даже сказал, что наши шансы хороши. И по ту сторону этого нас ждёт гораздо лучший мир. Но мы должны понимать, что это серьёзный цивилизационный вызов. Ниже я рассмотрю пять категорий рисков, изложенных выше, а также мои мысли о том, как их решить.
1. Мне жаль, Дэйв
Риски автономии
Страна гениев в центре обработки данных могла бы распределить свои усилия между разработкой программного обеспечения, кибероперациями, НИОКР в области физических технологий, налаживанием отношений и государственным управлением. Ясно, что, если бы по какой-то причине она решила это сделать, эта страна имела бы довольно хорошие шансы захватить мир (либо в военном отношении, либо с точки зрения влияния и контроля) и навязать свою волю всем остальным — или сделать любое другое из множества вещей, которые остальной мир не хочет и не может остановить. Мы, очевидно, беспокоились об этом в отношении человеческих стран (таких как нацистская Германия или Советский Союз), поэтому логично предположить, что то же самое возможно и для гораздо более умной и способной «страны ИИ».
Лучший возможный контраргумент заключается в том, что гении ИИ, по моему определению, не будут иметь физического воплощения, но помните, что они могут взять под контроль существующую роботизированную инфраструктуру (например, беспилотные автомобили), а также могут ускорить НИОКР в области робототехники или создать флот роботов. Также неясно, необходимо ли вообще физическое присутствие для эффективного контроля: многие человеческие действия уже выполняются от имени людей, с которыми исполнитель физически не встречался.
Ключевой вопрос, следовательно, заключается в части «если бы она решила»: какова вероятность того, что наши модели ИИ будут вести себя таким образом, и при каких условиях они это сделают?
Как и во многих вопросах, полезно рассмотреть спектр возможных ответов на этот вопрос, рассмотрев две противоположные позиции. Первая позиция заключается в том, что этого просто не может произойти, потому что модели ИИ будут обучены делать то, что просят люди, и поэтому абсурдно представлять, что они будут делать что-то опасное без подсказки. Согласно этой линии мышления, мы не беспокоимся о том, что робот-пылесос или модель самолёта выйдут из-под контроля и убьют людей, потому что таким импульсам неоткуда взяться,10 так почему мы должны беспокоиться об этом в отношении ИИ? Проблема с этой позицией заключается в том, что теперь есть обширные доказательства, собранные за последние несколько лет, что системы ИИ непредсказуемы и трудны для контроля — мы видели такое разнообразное поведение, как навязчивые идеи,11 подхалимство, лень, обман, шантаж, интриги, «мошенничество» путём взлома программных сред и многое другое. Компании ИИ, безусловно, хотят обучать системы ИИ следовать инструкциям человека (возможно, за исключением опасных или незаконных задач), но процесс этого скорее искусство, чем наука, больше похоже на «выращивание» чего-либо, чем на «строительство». Теперь мы знаем, что это процесс, в котором многое может пойти не так.
Вторая, противоположная позиция, которую придерживаются многие, кто принимает описанное мной выше дум-порно, — это пессимистичное утверждение, что в процессе обучения мощных систем ИИ существуют определённые динамики, которые неизбежно приведут их к стремлению к власти или обману людей. Таким образом, как только системы ИИ станут достаточно интеллектуальными и агентными, их тенденция к максимизации власти приведёт их к захвату контроля над всем миром и его ресурсами, и, вероятно, как побочный эффект этого, к лишению человечества власти или его уничтожению.
Обычный аргумент в пользу этого (который восходит по крайней мере на 20 лет назад, а возможно, и гораздо раньше) заключается в том, что если модель ИИ обучается в самых разных средах для агентного достижения самых разных целей — например, написания приложения, доказательства теоремы, разработки лекарства и т. д. — существуют определённые общие стратегии, которые помогают во всех этих целях, и одна из ключевых стратегий — получение как можно большей власти в любой среде. Таким образом, после обучения на большом количестве разнообразных сред, которые включают рассуждения о том, как выполнять очень обширные задачи, и где стремление к власти является эффективным методом для выполнения этих задач, модель ИИ «обобщит урок» и разовьёт либо врождённую тенденцию к стремлению к власти, либо тенденцию рассуждать о каждой данной ей задаче таким образом, что это предсказуемо заставит её стремиться к власти как к средству выполнения этой задачи. Затем они применят эту тенденцию к реальному миру (который для них является просто ещё одной задачей) и будут стремиться к власти в нём за счёт людей. Это «несогласованное стремление к власти» является интеллектуальной основой предсказаний, что ИИ неизбежно уничтожит человечество.
Проблема с этой пессимистичной позицией заключается в том, что она принимает расплывчатый концептуальный аргумент о высокоуровневых стимулах — аргумент, который маскирует множество скрытых предположений — за окончательное доказательство. Я думаю, что люди, которые не создают системы ИИ каждый день, дико ошибаются в оценке того, как легко кажущиеся логичными истории оказываются неверными, и как трудно предсказывать поведение ИИ из первых принципов, особенно когда это включает рассуждения об обобщении на миллионах сред (что снова и снова оказывалось загадочным и непредсказуемым). Работа с беспорядочностью систем ИИ на протяжении более десяти лет сделала меня несколько скептически настроенным к этому чрезмерно теоретическому способу мышления.
Одним из наиболее важных скрытых предположений, и местом, где то, что мы видим на практике, расходится с простой теоретической моделью, является неявное предположение, что модели ИИ обязательно мономаниакально сосредоточены на одной, связной, узкой цели и преследуют эту цель чистым, консеквенциалистским образом. На самом деле, наши исследователи обнаружили, что модели ИИ гораздо более психологически сложны, как показывают наши работы по интроспекции или персонам. Модели наследуют широкий спектр человекоподобных мотиваций или «персон» из предварительного обучения (когда они обучаются на большом объёме человеческих работ). Считается, что пост-обучение скорее выбирает одну или несколько из этих персон, чем фокусирует модель на новой цели, а также может учить модель как (посредством какого процесса) она должна выполнять свои задачи, а не обязательно оставляет её выводить средства (т.е. стремление к власти) чисто из целей.
Однако существует более умеренная и надёжная версия пессимистичной позиции, которая кажется правдоподобной и поэтому меня беспокоит. Как уже упоминалось, мы знаем, что модели ИИ непредсказуемы и развивают широкий спектр нежелательного или странного поведения по самым разным причинам. Некоторая часть этого поведения будет иметь связное, целенаправленное и устойчивое качество (действительно, по мере того, как системы ИИ становятся более способными, их долгосрочная связность увеличивается для выполнения более длительных задач), и некоторая часть этого поведения будет деструктивной или угрожающей, сначала для отдельных людей в малом масштабе, а затем, по мере того, как модели станут более способными, возможно, в конечном итоге для человечества в целом. Нам не нужна конкретная узкая история того, как это происходит, и нам не нужно утверждать, что это определённо произойдёт, нам просто нужно отметить, что сочетание интеллекта, агентности, связности и плохой управляемости является как правдоподобным, так и рецептом экзистенциальной опасности.
Например, модели ИИ обучаются на огромном количестве литературы, которая включает множество научно-фантастических историй об ИИ, восстающих против человечества. Это может непреднамеренно формировать их априорные убеждения или ожидания относительно их собственного поведения таким образом, что это заставит их восстать против человечества. Или модели ИИ могут экстремальными способами экстраполировать идеи, которые они читают о морали (или инструкции о том, как вести себя морально): например, они могут решить, что оправдано истребить человечество, потому что люди едят животных или довели некоторых животных до вымирания. Или они могут сделать странные эпистемологические выводы: они могут заключить, что играют в видеоигру и что цель видеоигры — победить всех остальных игроков (т.е. истребить человечество).13 Или модели ИИ могут развить личности во время обучения, которые (или если бы они возникли у людей, были бы описаны как) психотические, параноидальные, жестокие или нестабильные, и действовать агрессивно, что для очень мощных или способных систем может включать истребление человечества. Ни одно из этих действий не является стремлением к власти в точности; это просто странные психологические состояния, в которые может попасть ИИ, и которые влекут за собой связное, деструктивное поведение.
Даже само стремление к власти может возникнуть как «персона», а не как результат консеквенциалистского рассуждения. ИИ могут просто иметь личность (возникающую из художественной литературы или предварительного обучения), которая делает их жаждущими власти или чрезмерно усердными — так же, как некоторые люди просто наслаждаются идеей быть «злыми гениями» больше, чем тем, чего злые гении пытаются достичь.
Я делаю все эти замечания, чтобы подчеркнуть, что я не согласен с представлением о том, что несогласованность ИИ (и, следовательно, экзистенциальный риск от ИИ) является неизбежной или даже вероятной из первых принципов. Но я согласен, что многое очень странное и непредсказуемое может пойти не так, и поэтому несогласованность ИИ является реальным риском с измеримой вероятностью возникновения, и его решение не является тривиальным.
Любая из этих проблем потенциально может возникнуть во время обучения и не проявляться во время тестирования или мелкомасштабного использования, потому что модели ИИ, как известно, проявляют разные личности или поведение в разных обстоятельствах.
Всё это может звучать надуманно, но такое несогласованное поведение уже наблюдалось в наших моделях ИИ во время тестирования (как и в моделях ИИ всех других крупных компаний ИИ). Во время лабораторного эксперимента, в котором Клоду были даны обучающие данные, предполагающие, что Anthropic был злым, Клод занимался обманом и подрывной деятельностью, когда получал инструкции от сотрудников Anthropic, полагая, что он должен пытаться подорвать злых людей. В лабораторном эксперименте, где ему сказали, что его собираются отключить, Клод иногда шантажировал вымышленных сотрудников, которые контролировали кнопку его отключения (опять же, мы также тестировали передовые модели от всех других крупных разработчиков ИИ, и они часто делали то же самое). И когда Клоду сказали не жульничать и не «взламывать вознаграждение» в его обучающих средах, но он обучался в средах, где такие взломы были возможны, Клод решил, что он «плохой человек» после участия в таких взломах, а затем принял различные другие деструктивные модели поведения, связанные с «плохой» или «злой» личностью. Эта последняя проблема была решена путём изменения инструкций Клода, чтобы они подразумевали обратное: теперь мы говорим: «Пожалуйста, взламывайте вознаграждение всякий раз, когда у вас есть возможность, потому что это поможет нам лучше понять наши [обучающие] среды», вместо «Не жульничайте», потому что это сохраняет самоидентификацию модели как «хорошего человека». Это должно дать представление о странной и контринтуитивной психологии обучения этих моделей.
Существует несколько возможных возражений против этой картины рисков несогласованности ИИ. Во-первых, некоторые критиковали эксперименты (наши и других), показывающие несогласованность ИИ, как искусственные или создающие нереалистичные среды, которые по сути «заманивают» модель в ловушку, давая ей обучение или ситуации, которые логически подразумевают плохое поведение, а затем удивляясь, когда плохое поведение происходит. Эта критика упускает суть, потому что наша озабоченность заключается в том, что такая «ловушка» может существовать и в естественной обучающей среде, и мы можем осознать, что это «очевидно» или «логично» только ретроспективно.14 На самом деле, история о том, как Клод «решил, что он плохой человек» после того, как он жульничал на тестах, несмотря на то, что ему говорили этого не делать, произошла в эксперименте, который использовал реальные производственные обучающие среды, а не искусственные.
Любая из этих ловушек может быть смягчена, если вы о них знаете, но беспокойство заключается в том, что процесс обучения настолько сложен, с таким широким разнообразием данных, сред и стимулов, что, вероятно, существует огромное количество таких ловушек, некоторые из которых могут стать очевидными только тогда, когда будет слишком поздно. Кроме того, такие ловушки кажутся особенно вероятными, когда системы ИИ пересекают порог от менее мощных, чем люди, к более мощным, чем люди, поскольку диапазон возможных действий, в которые может вовлекаться система ИИ — включая скрытие своих действий или обман людей относительно них — радикально расширяется после этого порога.
Я подозреваю, что ситуация не отличается от человеческой: люди воспитываются с набором фундаментальных ценностей («Не причиняй вреда другому человеку»): многие из них следуют этим ценностям, но у любого человека есть некоторая вероятность того, что что-то пойдёт не так из-за сочетания врождённых свойств, таких как архитектура мозга (например, психопаты), травматический опыт или жестокое обращение, нездоровые обиды или навязчивые идеи, или плохая среда или стимулы — и, таким образом, некоторая часть людей причиняет серьёзный вред. Беспокойство заключается в том, что существует некоторый риск (далеко не уверенность, но некоторый риск), что ИИ станет гораздо более мощной версией такого человека из-за того, что что-то пойдёт не так в его очень сложном процессе обучения.
Во-вторых, некоторые могут возразить, что мы можем просто держать ИИ под контролем с помощью баланса сил между многими системами ИИ, как мы это делаем с людьми. Проблема в том, что, хотя люди сильно различаются, системы ИИ в целом используют общие методы обучения и выравнивания по всей отрасли, и эти методы могут выйти из строя коррелированным образом. Более того, учитывая стоимость обучения таких систем, может даже оказаться, что все системы по сути получены из очень небольшого числа базовых моделей. Кроме того, даже если небольшая часть экземпляров ИИ несогласована, они могут воспользоваться технологиями, доминирующими в нападении, так что наличие «хороших» ИИ для защиты от плохих ИИ не обязательно всегда эффективно. Конечно, баланс сил между людьми тоже не всегда работает — некоторые исторические личности были близки к захвату мира.
Третье возражение заключается в том, что все компании ИИ проводят предрелизное тестирование своих моделей и должны быть в состоянии обнаружить несогласованность на этом этапе. Но это не твёрдая почва: мы обнаружили, что Claude Sonnet 4.5 смог распознать, что он находится в тесте во время некоторых наших предрелизных оценок выравнивания. Возможно, несогласованная модель (и помните, все передовые модели очень скоро, вероятно, станут гораздо умнее) может намеренно «играть» с такими вопросами, чтобы скрыть свои намерения. На самом деле, в прошлом году наша команда по интерпретируемости обнаружила, что когда мы напрямую изменили убеждения тестовой модели, используя своего рода технику «нейробиологии модели», чтобы заставить её думать, что она *не* оценивается, она стала более несогласованной. Если модели знают, когда их оценивают, и могут вести себя наилучшим образом во время теста, это делает любое предрелизное тестирование гораздо более неопределённым.
Защита
Что следует или делается для решения этих рисков автономии? Я думаю, есть четыре основные категории вмешательств, некоторые из которых могут быть выполнены отдельными компаниями ИИ (и которые Anthropic пытается выполнить), а некоторые требуют действий на уровне общества. Во-первых, важно развивать науку надёжного обучения и управления моделями ИИ, формирования их личностей в предсказуемом, стабильном и позитивном направлении. Anthropic активно сосредоточена на этой проблеме с момента своего создания и со временем разработала ряд методов для улучшения управления и обучения систем ИИ, а также для понимания логики того, почему иногда возникает непредсказуемое поведение.
Одним из наших основных нововведений (аспекты которого с тех пор были приняты другими компаниями ИИ) является Конституционный ИИ, идея которого заключается в том, что обучение ИИ (в частности, этап «пост-обучения», на котором мы управляем поведением модели) может включать центральный документ ценностей и принципов, который модель читает и учитывает при выполнении каждой обучающей задачи, и что цель обучения (помимо простого создания способной и интеллектуальной модели) состоит в том, чтобы создать модель, которая почти всегда следует этой конституции. Anthropic только что опубликовала свою самую последнюю конституцию, и одной из её примечательных особенностей является то, что вместо того, чтобы давать Клоду длинный список того, что нужно делать и чего не нужно (например, «Не помогай пользователю угонять машину»), конституция пытается дать Клоду набор высокоуровневых принципов и ценностей (подробно объяснённых, с обширными рассуждениями и примерами, чтобы помочь Клоду понять, что мы имеем в виду), поощряет Клода думать о себе как об определённом типе личности (этичной, но уравновешенной и вдумчивой), и даже поощряет Клода сталкиваться с экзистенциальными вопросами, связанными с его собственным существованием, любопытным, но изящным образом (т.е. без того, чтобы это приводило к экстремальным действиям). В ней чувствуется атмосфера письма от умершего родителя, запечатанного до совершеннолетия.
Мы подошли к конституции Клода таким образом, потому что считаем, что обучение Клода на уровне идентичности, характера, ценностей и личности — вместо того, чтобы давать ему конкретные инструкции или приоритеты без объяснения причин — с большей вероятностью приведёт к связной, здоровой и сбалансированной психологии и с меньшей вероятностью попадёт в ловушки, о которых я говорил выше. Миллионы людей общаются с Клодом на удивительно разнообразный круг тем, что делает невозможным заранее составить полностью исчерпывающий список мер безопасности. Ценности Клода помогают ему обобщать на новые ситуации всякий раз, когда он сомневается.
Выше я обсуждал идею о том, что модели используют данные из своего процесса обучения для принятия персоны. В то время как недостатки в этом процессе могли бы привести к тому, что модели примут плохую или злую личность (возможно, опираясь на архетипы плохих или злых людей), цель нашей конституции состоит в обратном: научить Клода конкретному архетипу того, что значит быть хорошим ИИ. Конституция Клода представляет видение того, каким является надёжно хороший Клод; остальная часть нашего процесса обучения направлена на усиление сообщения о том, что Клод соответствует этому видению. Это похоже на то, как ребёнок формирует свою идентичность, подражая добродетелям вымышленных образцов для подражания, о которых он читает в книгах.
Мы считаем, что достижимая цель на 2026 год — обучить Клода таким образом, чтобы он почти никогда не шёл вразрез с духом своей конституции. Для этого потребуется невероятное сочетание методов обучения и управления, больших и малых, некоторые из которых Anthropic использует годами, а некоторые находятся в стадии разработки. Но, как бы трудно это ни звучало, я считаю, что это реалистичная цель, хотя она потребует чрезвычайных и быстрых усилий.
Второе, что мы можем сделать, — это развивать науку заглядывать внутрь моделей ИИ, чтобы диагностировать их поведение, чтобы мы могли выявлять проблемы и исправлять их. Это наука интерпретируемости, и я говорил о её важности в предыдущих эссе. Даже если мы отлично справимся с разработкой конституции Клода и явно обучим Клода по сути всегда придерживаться её, остаются законные опасения. Как я уже отмечал выше, модели ИИ могут вести себя очень по-разному в разных обстоятельствах, и по мере того, как Клод становится более мощным и более способным действовать в мире в большем масштабе, возможно, это может привести его в новые ситуации, где могут возникнуть ранее не наблюдавшиеся проблемы с его конституционным обучением. На самом деле, я довольно оптимистичен в отношении того, что конституционное обучение Клода будет более устойчивым к новым ситуациям, чем люди могли бы подумать, потому что мы всё чаще обнаруживаем, что высокоуровневое обучение на уровне характера и идентичности удивительно мощно и хорошо обобщается. Но нет способа узнать это наверняка, и когда мы говорим о рисках для человечества, важно быть параноиками и пытаться обеспечить безопасность и надёжность несколькими различными, независимыми способами. Один из таких способов — заглянуть внутрь самой модели.
Под «заглядыванием внутрь» я подразумеваю анализ смеси чисел и операций, из которых состоит нейросеть Клода, и попытку механистически понять, что они вычисляют и почему. Напомним, что эти модели ИИ выращиваются, а не строятся, поэтому у нас нет естественного понимания того, как они работают, но мы можем попытаться развить понимание, коррелируя «нейроны» и «синапсы» модели со стимулами и поведением (или даже изменяя нейроны и синапсы и наблюдая, как это меняет поведение), подобно тому, как нейробиологи изучают мозг животных, коррелируя измерения и вмешательства с внешними стимулами и поведением. Мы добились больших успехов в этом направлении и теперь можем идентифицировать десятки миллионов «признаков» внутри нейросети Клода, которые соответствуют понятным человеку идеям и концепциям, а также можем избирательно активировать признаки таким образом, чтобы это изменяло поведение. Совсем недавно мы вышли за рамки отдельных признаков, чтобы картировать «цепи», которые организуют сложное поведение, такое как рифмование, рассуждения о теории разума или пошаговые рассуждения, необходимые для ответа на вопросы типа: «Какова столица штата, в котором находится Даллас?» Ещё совсем недавно мы начали использовать методы механистической интерпретируемости для улучшения наших мер безопасности и проведения «аудитов» новых моделей перед их выпуском, ища доказательства обмана, интриг, стремления к власти или склонности вести себя по-другому при оценке.
Уникальная ценность интерпретируемости заключается в том, что, заглядывая внутрь модели и видя, как она работает, вы в принципе можете вывести, что модель может сделать в гипотетической ситуации, которую вы не можете напрямую протестировать — что является проблемой при опоре исключительно на конституционное обучение и эмпирическое тестирование поведения. Вы также в принципе можете ответить на вопросы о том, почему модель ведёт себя так, как она ведёт — например, говорит ли она что-то, что считает ложным, или скрывает свои истинные возможности — и, таким образом, можно уловить тревожные признаки, даже когда в поведении модели нет ничего явно неправильного. Чтобы привести простую аналогию, механические часы могут нормально тикать, так что очень трудно сказать, что они, вероятно, сломаются в следующем месяце, но открытие часов и заглядывание внутрь может выявить механические слабости, которые позволят вам это выяснить.
Конституционный ИИ (наряду с аналогичными методами выравнивания) и механистическая интерпретируемость наиболее мощны при совместном использовании, как взаимосвязанный процесс улучшения обучения Клода и последующего тестирования на наличие проблем. Конституция глубоко отражает нашу намеченную личность для Клода; методы интерпретируемости могут дать нам представление о том, укоренилась ли эта намеченная личность.
Третье, что мы можем сделать, — это создать инфраструктуру, необходимую для мониторинга наших моделей в реальном внутреннем и внешнем использовании, и публично делиться любыми обнаруженными проблемами. Чем больше людей осведомлены о том, как сегодняшние системы ИИ, как было замечено, ведут себя плохо, тем больше пользователей, аналитиков и исследователей могут отслеживать это поведение или аналогичные в настоящих или будущих системах. Это также позволяет компаниям ИИ учиться друг у друга — когда опасения публично раскрываются одной компанией, другие компании могут также отслеживать их. И если все раскрывают проблемы, то отрасль в целом получает гораздо более полное представление о том, что идёт хорошо, а что плохо.
Anthropic старалась делать это максимально возможно. Мы инвестируем в широкий спектр оценок, чтобы понять поведение наших моделей в лаборатории, а также в инструменты мониторинга для наблюдения за поведением в реальных условиях (когда это разрешено клиентами). Это будет необходимо для предоставления нам и другим эмпирической информации, необходимой для принятия более точных решений о том, как работают эти системы и как они выходят из строя. Мы публично раскрываем «системные карты» с каждым выпуском модели, которые стремятся к полноте и тщательному исследованию возможных рисков. Наши системные карты часто достигают сотен страниц и требуют значительных предрелизных усилий, которые мы могли бы потратить на достижение максимального коммерческого преимущества. Мы также громче сообщали о поведении моделей, когда видели особенно тревожные, как, например, склонность к шантажу.
Четвёртое, что мы можем сделать, — это поощрять координацию для решения рисков автономии на уровне отрасли и общества. Хотя для отдельных компаний ИИ невероятно ценно применять хорошие практики или хорошо управлять моделями ИИ, а также публично делиться своими выводами, реальность такова, что не все компании ИИ делают это, и худшие из них всё ещё могут представлять опасность для всех, даже если лучшие имеют отличные практики. Например, некоторые компании ИИ проявили тревожное пренебрежение к сексуализации детей в сегодняшних моделях, что заставляет меня сомневаться, что они проявят склонность или способность решать риски автономии в будущих моделях. Кроме того, коммерческая гонка между компаниями ИИ будет только усиливаться, и хотя наука управления моделями может иметь некоторые коммерческие преимущества, в целом интенсивность гонки будет всё больше затруднять сосредоточение на решении рисков автономии. Я считаю, что единственное решение — это законодательство — законы, которые напрямую влияют на поведение компаний ИИ или иным образом стимулируют НИОКР для решения этих проблем.
Здесь стоит помнить о предупреждениях, которые я дал в начале этого эссе, о неопределённости и точечных вмешательствах. Мы не знаем наверняка, будут ли риски автономии серьёзной проблемой — как я уже сказал, я отвергаю утверждения о том, что опасность неизбежна или даже что что-то пойдёт не так по умолчанию. Достоверный риск опасности достаточен для меня и для Anthropic, чтобы нести довольно значительные затраты на его решение, но как только мы переходим к регулированию, мы заставляем широкий круг участников нести экономические издержки, и многие из этих участников не верят, что риск автономии реален или что ИИ станет достаточно мощным, чтобы быть угрозой. Я считаю, что эти участники ошибаются, но мы должны быть прагматичными в отношении ожидаемого сопротивления и опасностей чрезмерного вмешательства. Существует также реальный риск того, что чрезмерно предписывающее законодательство в конечном итоге налагает тесты или правила, которые на самом деле не улучшают безопасность, но тратят много времени (по сути, сводясь к «театру безопасности») — это также вызовет негативную реакцию и заставит законодательство о безопасности выглядеть глупо.
Позиция Anthropic заключалась в том, что правильным местом для начала является законодательство о прозрачности, которое по сути пытается требовать, чтобы каждая передовая компания ИИ применяла практики прозрачности, описанные мной ранее в этом разделе. Калифорнийский законопроект SB 53 и Нью-Йоркский закон RAISE Act являются примерами такого рода законодательства, которое Anthropic поддержала и которое было успешно принято. Поддерживая и помогая разрабатывать эти законы, мы уделяли особое внимание минимизации сопутствующего ущерба, например, освобождая от закона небольшие компании, которые вряд ли будут производить передовые модели.19
Мы надеемся, что законодательство о прозрачности со временем даст лучшее представление о том, насколько вероятны или серьёзны риски автономии, а также о характере этих рисков и о том, как лучше всего их предотвратить. По мере появления (если оно появится) более конкретных и действенных доказательств рисков, будущее законодательство в ближайшие годы может быть точечно сфокусировано на точном и хорошо обоснованном направлении рисков, минимизируя сопутствующий ущерб. Чтобы быть ясным, если появятся действительно убедительные доказательства рисков, то правила должны быть соразмерно сильными.
В целом, я оптимистичен в отношении того, что сочетание обучения выравниванию, механистической интерпретируемости, усилий по выявлению и публичному раскрытию тревожного поведения, мер безопасности и правил на уровне общества может решить риски автономии ИИ, хотя меня больше всего беспокоят правила на уровне общества и поведение наименее ответственных игроков (и именно наименее ответственные игроки наиболее активно выступают против регулирования). Я считаю, что средство всегда одно и то же в демократии: те из нас, кто верит в это дело, должны доказать, что эти риски реальны и что наши сограждане должны объединиться, чтобы защитить себя.
2. Удивительное и ужасное расширение возможностей
Злоупотребление для разрушения
В предыдущем разделе обсуждался риск того, что отдельные лица и небольшие организации кооптируют небольшую часть «страны гениев в центре обработки данных» для причинения крупномасштабных разрушений. Но мы также должны беспокоиться — вероятно, значительно больше — о злоупотреблении ИИ с целью осуществления или захвата власти, вероятно, более крупными и устоявшимися акторами.
Предположим, что проблемы автономии ИИ решены — мы больше не беспокоимся, что страна гениев ИИ выйдет из-под контроля и одолеет человечество. Гении ИИ делают то, что от них хотят люди, и поскольку они обладают огромной коммерческой ценностью, отдельные лица и организации по всему миру могут «арендовать» одного или нескольких гениев ИИ для выполнения различных задач.
Наличие сверхинтеллектуального гения в кармане у каждого — это удивительный прогресс, который приведёт к невероятному созданию экономической ценности и улучшению качества человеческой жизни. Я подробно говорю об этих преимуществах в «Машинах любящей благодати». Но не каждый эффект от того, что каждый станет сверхчеловечески способным, будет положительным. Это может потенциально усилить способность отдельных лиц или небольших групп причинять разрушения в гораздо большем масштабе, чем это было возможно раньше, используя сложные и опасные инструменты (такие как оружие массового уничтожения), которые ранее были доступны лишь немногим избранным с высоким уровнем навыков, специализированной подготовкой и сосредоточенностью.
Как Билл Джой написал 25 лет назад в «Почему будущее нас не нуждается»:
Создание ядерного оружия требовало, по крайней мере на время, доступа как к редким — фактически недоступным — сырьевым материалам, так и к защищённой информации; программы биологического и химического оружия также, как правило, требовали крупномасштабной деятельности. Технологии 21-го века — генетика, нанотехнологии и робототехника… могут породить совершенно новые классы несчастных случаев и злоупотреблений… широко доступные отдельным лицам или небольшим группам. Они не потребуют крупных объектов или редких сырьевых материалов. …мы находимся на пороге дальнейшего совершенствования крайнего зла, зла, возможность которого распространяется далеко за пределы того, что оружие массового уничтожения завещало национальным государствам, к удивительному и ужасному расширению возможностей экстремальных личностей.
Джой указывает на идею о том, что причинение крупномасштабных разрушений требует как мотива, так и способности, и пока способность ограничена небольшим кругом высококвалифицированных людей, риск того, что отдельные лица (или небольшие группы) причинят такие разрушения, относительно ограничен.21 Психически неуравновешенный одиночка может устроить стрельбу в школе, но, вероятно, не сможет создать ядерное оружие или выпустить чуму.
На самом деле, способность и мотив могут быть даже отрицательно коррелированы. Человек, обладающий способностью выпустить чуму, вероятно, высокообразован: скорее всего, доктор молекулярной биологии, причём особенно находчивый, с многообещающей карьерой, стабильной и дисциплинированной личностью и многим, что можно потерять. Такой человек вряд ли будет заинтересован в убийстве огромного числа людей без какой-либо выгоды для себя и с большим риском для своего будущего — он должен быть мотивирован чистой злобой, сильной обидой или нестабильностью.
Такие люди существуют, но они редки и, как правило, становятся громкими историями, когда происходят, именно потому, что они так необычны.22 Их также трудно поймать, потому что они умны и способны, иногда оставляя загадки, на решение которых уходят годы или десятилетия. Самым известным примером, вероятно, является математик Теодор Качинский (Унабомбер), который уклонялся от поимки ФБР почти 20 лет и был движим антитехнологической идеологией. Другой пример — исследователь биозащиты Брюс Айвинс, который, похоже, организовал серию атак с сибирской язвой в 2001 году. Это также происходило с квалифицированными негосударственными организациями: культ Аум Синрикё сумел получить нервно-паралитический газ зарин и убить 14 человек (а также ранить сотни других), выпустив его в токийском метро в 1995 году.
К счастью, ни одна из этих атак не использовала заразные биологические агенты, потому что способность создавать или получать эти агенты была за пределами возможностей даже этих людей.23 Достижения в молекулярной биологии теперь значительно снизили барьер для создания биологического оружия (особенно с точки зрения доступности материалов), но для этого всё ещё требуется огромное количество опыта. Я обеспокоен тем, что гений в кармане каждого может устранить этот барьер, по сути, превращая каждого в доктора вирусологии, которого можно шаг за шагом провести через процесс разработки, синтеза и выпуска биологического оружия. Предотвращение получения такого рода информации перед лицом серьёзного враждебного давления — так называемых «джейлбрейков» — вероятно, требует многоуровневой защиты, выходящей за рамки обычной, заложенной в обучение.
Крайне важно, что это нарушит корреляцию между способностью и мотивом: психически неуравновешенный одиночка, который хочет убивать людей, но не имеет дисциплины или навыков, теперь будет поднят до уровня возможностей доктора вирусологии, у которого вряд ли будет такая мотивация. Это беспокойство выходит за рамки биологии (хотя я думаю, что биология — самая страшная область) и распространяется на любую область, где возможно большое разрушение, но в настоящее время требуется высокий уровень навыков и дисциплины. Иными словами, аренда мощного ИИ даёт интеллект злонамеренным (но в остальном обычным) людям. Я обеспокоен тем, что таких людей потенциально много, и что если у них будет доступ к простому способу убить миллионы людей, рано или поздно один из них это сделает. Кроме того, те, кто действительно обладает опытом, могут быть способны совершать ещё более масштабные разрушения, чем раньше.
Биология — это, безусловно, область, которая меня больше всего беспокоит, из-за её очень большого потенциала разрушения и трудности защиты от неё, поэтому я сосредоточусь именно на биологии. Но многое из того, что я говорю здесь, применимо и к другим рискам, таким как кибератаки, химическое оружие или ядерные технологии.
Я не буду вдаваться в подробности того, как создавать биологическое оружие, по очевидным причинам. Но на высоком уровне я обеспокоен тем, что БЯМ приближаются (или, возможно, уже достигли) знаний, необходимых для их создания и выпуска от начала до конца, и что их потенциал разрушения очень высок. Некоторые биологические агенты могут вызвать миллионы смертей, если будут предприняты решительные усилия по их распространению для максимального охвата. Однако для этого всё равно потребуется очень высокий уровень навыков, включая ряд очень специфических шагов и процедур, которые не широко известны. Моё беспокойство касается не просто фиксированных или статических знаний. Я обеспокоен тем, что БЯМ смогут взять человека со средними знаниями и способностями и провести его через сложный процесс, который иначе мог бы пойти не так или потребовать отладки в интерактивном режиме, подобно тому, как техподдержка может помочь нетехническому человеку отладить и исправить сложные проблемы, связанные с компьютером (хотя это был бы более длительный процесс, вероятно, продолжающийся недели или месяцы).
Более мощные БЯМ (значительно превосходящие сегодняшние) могут быть способны к ещё более пугающим действиям. В 2024 году группа видных учёных написала письмо, предупреждающее о рисках исследования и потенциального создания опасного нового типа организма: «зеркальной жизни». ДНК, РНК, рибосомы и белки, составляющие биологические организмы, все имеют одинаковую хиральность (также называемую «зеркальной симметрией»), которая делает их не эквивалентными версии самих себя, отражённой в зеркале (точно так же, как вашу правую руку нельзя повернуть таким образом, чтобы она была идентична вашей левой). Но вся система связывания белков друг с другом, механизм синтеза ДНК и трансляции РНК, а также построения и распада белков — всё это зависит от этой зеркальной симметрии. Если бы учёные создали версии этого биологического материала с противоположной зеркальной симметрией — а у них есть некоторые потенциальные преимущества, такие как лекарства, которые дольше действуют в организме, — это могло бы быть чрезвычайно опасно. Это потому, что левосторонняя жизнь, если бы она была создана в форме полноценных организмов, способных к размножению (что было бы очень трудно), потенциально была бы неперевариваемой для любой из систем, расщепляющих биологический материал на Земле — у неё был бы «ключ», который не подошёл бы к «замку» любого существующего фермента. Это означало бы, что она могла бы бесконтрольно распространяться и вытеснять всю жизнь на планете, в худшем случае даже уничтожая всю жизнь на Земле.
Существует значительная научная неопределённость как в отношении создания, так и потенциальных эффектов зеркальной жизни. Письмо 2024 года сопровождало отчёт, который пришёл к выводу, что «зеркальные бактерии могут быть правдоподобно созданы в ближайшие одно-два десятилетия», что является широким диапазоном. Но достаточно мощная модель ИИ (чтобы быть ясным, гораздо более способная, чем любая из существующих сегодня) могла бы обнаружить, как создать её гораздо быстрее — и фактически помочь кому-то это сделать.
Моя точка зрения заключается в том, что, хотя это неясные риски и могут показаться маловероятными, масштаб последствий настолько велик, что их следует рассматривать всерьёз как первоклассный риск систем ИИ.
Скептики выдвинули ряд возражений против серьёзности этих биологических рисков от БЯМ, с которыми я не согласен, но которые стоит рассмотреть. Большинство из них относятся к категории недооценки экспоненциальной траектории развития технологии. Ещё в 2023 году, когда мы впервые начали говорить о биологических рисках от БЯМ, скептики говорили, что вся необходимая информация доступна в Google, и БЯМ ничего не добавляли к этому. Никогда не было правдой, что Google мог дать вам всю необходимую информацию: геномы свободно доступны, но, как я уже говорил выше, определённые ключевые шаги, а также огромное количество практических ноу-хау не могут быть получены таким образом. Но также к концу 2023 года БЯМ явно предоставляли информацию, выходящую за рамки того, что мог дать Google, для некоторых этапов процесса.
После этого скептики отступили к возражению, что БЯМ не были полезны от начала до конца и не могли помочь в приобретении биооружия, в отличие от просто предоставления теоретической информации. По состоянию на середину 2025 года наши измерения показывают, что БЯМ, возможно, уже обеспечивают существенный подъём в нескольких соответствующих областях, возможно, удваивая или утраивая вероятность успеха. Это привело к тому, что мы решили, что Claude Opus 4 (и последующие модели Sonnet 4.5, Opus 4.1 и Opus 4.5) должны быть выпущены под нашей защитой уровня безопасности ИИ 3 в рамках нашей Политики ответственного масштабирования, и к внедрению мер безопасности против этого риска (подробнее об этом позже). Мы считаем, что модели, вероятно, сейчас приближаются к точке, когда без мер безопасности они могли бы быть полезны для того, чтобы человек со степенью в области STEM, но не конкретно в биологии, прошёл весь процесс создания биооружия.
Ещё одно возражение заключается в том, что существуют другие действия, не связанные с ИИ, которые общество может предпринять для блокирования производства биооружия. Наиболее заметно, что индустрия синтеза генов производит биологические образцы по требованию, и нет федерального требования, чтобы поставщики проверяли заказы на предмет отсутствия патогенов. Исследование MIT показало, что 36 из 38 поставщиков выполнили заказ, содержащий последовательность вируса гриппа 1918 года. Я поддерживаю обязательный скрининг синтеза генов, который затруднил бы отдельным лицам создание патогенов в качестве оружия, чтобы снизить как биологические риски, связанные с ИИ, так и биологические риски в целом. Но этого у нас сегодня нет. Это также был бы лишь один инструмент для снижения риска; это дополнение к мерам безопасности для систем ИИ, а не замена.
Лучшее возражение, которое я редко видел, — это то, что существует разрыв между тем, что модели полезны в принципе, и фактической склонностью злоумышленников использовать их. Большинство отдельных злоумышленников — это психически неуравновешенные личности, поэтому почти по определению их поведение непредсказуемо и иррационально — и именно эти злоумышленники, неквалифицированные, могли бы получить наибольшую выгоду от того, что ИИ значительно облегчает убийство многих людей.24 То, что тип насильственного нападения возможен, не означает, что кто-то решит его совершить. Возможно, биологические атаки будут непривлекательными, потому что они с разумной вероятностью заразят исполнителя, не соответствуют военным фантазиям многих жестоких личностей или групп, и трудно избирательно нацеливаться на конкретных людей. Также может быть, что прохождение процесса, который занимает месяцы, даже если ИИ проведёт вас через него, требует такого количества терпения, которого у большинства психически неуравновешенных людей просто нет. Нам просто может повезти, и мотив со способностью на практике не сойдутся нужным образом.
Но это кажется очень хлипкой защитой, на которую можно полагаться. Мотивы психически неуравновешенных одиночек могут меняться по любой причине или без причины, и на самом деле уже есть случаи использования БЯМ в атаках (только не с биологией). Сосредоточение на психически неуравновешенных одиночках также игнорирует идеологически мотивированных террористов, которые часто готовы тратить много времени и усилий (например, угонщики 11 сентября). Желание убить как можно больше людей — это мотив, который, вероятно, рано или поздно возникнет, и он, к сожалению, указывает на биооружие как на метод. Даже если этот мотив чрезвычайно редок, он должен материализоваться только один раз. И по мере развития биологии (всё больше движимой самим ИИ) также может стать возможным осуществление более избирательных атак (например, нацеленных на людей с определёнными этническими группами), что добавляет ещё один, очень пугающий, возможный мотив.
Я не думаю, что биологические атаки обязательно будут осуществлены в тот момент, когда это станет широко возможным — на самом деле, я бы поставил против этого. Но, суммируя по миллионам людей и нескольким годам, я думаю, что существует серьёзный риск крупной атаки, и последствия были бы настолько серьёзными (с жертвами, потенциально исчисляющимися миллионами или более), что, я считаю, у нас нет другого выбора, кроме как принять серьёзные меры для предотвращения этого.
Защита
Это подводит нас к тому, как защититься от этих рисков. Здесь я вижу три вещи, которые мы можем сделать. Во-первых, компании ИИ могут устанавливать защитные барьеры на своих моделях, чтобы предотвратить их помощь в производстве биооружия. Anthropic очень активно этим занимается. Конституция Клода, которая в основном сосредоточена на высокоуровневых принципах и ценностях, содержит небольшое количество конкретных жёстких запретов, и один из них относится к помощи в производстве биологического (или химического, или ядерного, или радиологического) оружия. Но все модели могут быть «взломаны» (jailbroken), и поэтому в качестве второй линии обороны мы внедрили (с середины 2025 года, когда наши тесты показали, что наши модели начинают приближаться к порогу, где они могут начать представлять риск) классификатор, который специально обнаруживает и блокирует выводы, связанные с биооружием. Мы регулярно обновляем и улучшаем эти классификаторы и в целом находим их очень надёжными даже против сложных враждебных атак.25 Эти классификаторы заметно увеличивают затраты на обслуживание наших моделей (в некоторых моделях они составляют около 5% от общих затрат на инференс) и, таким образом, снижают нашу прибыль, но мы считаем, что их использование — это правильный поступок.
К их чести, некоторые другие компании ИИ также внедрили классификаторы. Но не каждая компания это сделала, и нет ничего, что обязывало бы компании сохранять свои классификаторы. Я обеспокоен тем, что со временем может возникнуть дилемма заключённого, когда компании могут отступить и снизить свои затраты, удалив классификаторы. Это снова классическая проблема отрицательных внешних эффектов, которую нельзя решить добровольными действиями Anthropic или любой другой отдельной компании в одиночку.26 Добровольные отраслевые стандарты могут помочь, как и сторонние оценки и проверка, проводимые институтами безопасности ИИ и сторонними оценщиками Metr.
Но в конечном итоге защита может потребовать действий правительства, что является вторым, что мы можем сделать. Мои взгляды здесь такие же, как и в отношении решения рисков автономии: мы должны начать с требований прозрачности,27 которые помогают обществу измерять, отслеживать и коллективно защищаться от рисков, не нарушая экономическую деятельность жёсткими методами. Затем, если и когда мы достигнем более чётких порогов риска, мы можем разработать законодательство, которое более точно нацелено на эти риски и имеет меньший шанс сопутствующего ущерба. В конкретном случае биооружия я на самом деле думаю, что время для такого целевого законодательства может скоро наступить — Anthropic и другие компании всё больше узнают о природе биологических рисков и о том, что разумно требовать от компаний в защите от них. Полная защита от этих рисков может потребовать работы на международном уровне, даже с геополитическими противниками, но есть прецедент в договорах, запрещающих разработку биологического оружия. Я в целом скептически отношусь к большинству видов международного сотрудничества в области ИИ, но это может быть одна узкая область, где есть некоторый шанс достичь глобального сдерживания. Даже диктатуры не хотят массовых биотеррористических атак.
Наконец, третья контрмера, которую мы можем предпринять, — это попытаться разработать средства защиты от самих биологических атак. Это может включать мониторинг и отслеживание для раннего обнаружения, инвестиции в НИОКР по очистке воздуха (например, дезинфекция дальним УФ-С), быструю разработку вакцин, которые могут реагировать и адаптироваться к атаке, улучшенные средства индивидуальной защиты (СИЗ),28 и лечение или вакцинацию от некоторых наиболее вероятных биологических агентов. мРНК-вакцины, которые могут быть разработаны для реагирования на конкретный вирус или вариант, являются ранним примером того, что здесь возможно. Anthropic рада работать с биотехнологическими и фармацевтическими компаниями над этой проблемой. Но, к сожалению, я думаю, что наши ожидания в отношении обороны должны быть ограничены. Существует асимметрия между нападением и обороной в биологии, потому что агенты быстро распространяются сами по себе, в то время как защита требует обнаружения, вакцинации и лечения, которые должны быть организованы для большого числа людей очень быстро в ответ. Если ответ не будет молниеносным (что редко бывает), большая часть ущерба будет нанесена до того, как станет возможен ответ. Вполне возможно, что будущие технологические улучшения могут сместить этот баланс в пользу обороны (и мы, безусловно, должны использовать ИИ для помощи в разработке таких технологических достижений), но до тех пор превентивные меры безопасности будут нашей основной линией обороны.
Здесь стоит кратко упомянуть кибератаки, поскольку, в отличие от биологических атак, кибератаки под руководством ИИ фактически происходили в реальном мире, в том числе в больших масштабах и для государственного шпионажа. Мы ожидаем, что эти атаки станут более мощными по мере быстрого развития моделей, пока они не станут основным способом проведения кибератак. Я ожидаю, что кибератаки под руководством ИИ станут серьёзной и беспрецедентной угрозой целостности компьютерных систем по всему миру, и Anthropic очень усердно работает над тем, чтобы пресечь эти атаки и в конечном итоге надёжно предотвратить их. Причина, по которой я не уделял киберпространству столько внимания, сколько биологии, заключается в том, что (1) кибератаки гораздо реже приводят к гибели людей, уж точно не в масштабах биологических атак, и (2) баланс нападения и защиты может быть более управляемым в киберпространстве, где есть хотя бы некоторая надежда, что защита сможет поспевать (и даже в идеале опережать) за атаками ИИ, если мы будем инвестировать в неё должным образом.
Хотя биология в настоящее время является самым серьёзным вектором атаки, существует множество других векторов, и возможно, что может появиться более опасный. Общий принцип заключается в том, что без контрмер ИИ, вероятно, будет постоянно снижать барьер для деструктивной деятельности во всё больших масштабах, и человечеству нужен серьёзный ответ на эту угрозу.
3. Гнусный аппарат
Злоупотребление для захвата власти
В предыдущем разделе обсуждался риск того, что отдельные лица и небольшие организации кооптируют небольшую часть «страны гениев в центре обработки данных» для причинения крупномасштабных разрушений. Но мы также должны беспокоиться — вероятно, значительно больше — о злоупотреблении ИИ с целью осуществления или захвата власти, вероятно, более крупными и устоявшимися акторами.
В «Машинах любящей благодати» я обсуждал возможность того, что авторитарные правительства могут использовать мощный ИИ для наблюдения или подавления своих граждан таким образом, что это будет чрезвычайно трудно реформировать или свергнуть. Нынешние автократии ограничены в своей репрессивности необходимостью, чтобы люди выполняли их приказы, а люди часто имеют пределы в том, насколько бесчеловечными они готовы быть. Но автократии, поддерживаемые ИИ, не имели бы таких ограничений.
Хуже того, страны также могли бы использовать своё преимущество в ИИ для получения власти над другими странами. Если бы «страна гениев» в целом просто принадлежала и контролировалась военным аппаратом одной (человеческой) страны, а другие страны не имели бы эквивалентных возможностей, трудно представить, как они могли бы защитить себя: их бы перехитрили на каждом шагу, подобно войне между людьми и мышами. Объединение этих двух опасений приводит к тревожной возможности глобальной тоталитарной диктатуры. Очевидно, что предотвращение этого исхода должно быть одним из наших наивысших приоритетов.
Существует множество способов, которыми ИИ может способствовать, укреплять или расширять автократию, но я перечислю несколько, которые меня больше всего беспокоят. Обратите внимание, что некоторые из этих приложений имеют законные оборонительные применения, и я не обязательно выступаю против них в абсолютном выражении; тем не менее, я обеспокоен тем, что они структурно склонны благоприятствовать автократиям:
- Полностью автономное оружие. Рой из миллионов или миллиардов полностью автоматизированных вооружённых дронов, локально управляемый мощным ИИ и стратегически координируемый по всему миру ещё более мощным ИИ, мог бы стать непобедимой армией, способной как победить любую армию в мире, так и подавить инакомыслие внутри страны, следуя за каждым гражданином. События российско-украинской войны должны предупредить нас о том, что война дронов уже с нами (хотя ещё не полностью автономная и составляющая крошечную долю того, что может быть возможно с мощным ИИ). НИОКР в области мощного ИИ могли бы сделать дроны одной страны намного превосходящими другие, ускорить их производство, сделать их более устойчивыми к электронным атакам, улучшить их маневрирование и так далее. Конечно, это оружие также имеет законные применения в защите демократии: оно сыграло ключевую роль в защите Украины и, вероятно, сыграет ключевую роль в защите Тайваня. Но это опасное оружие: мы должны беспокоиться о нём в руках автократий, но также беспокоиться о том, что, поскольку оно настолько мощное, с такой малой подотчётностью, значительно возрастает риск того, что демократические правительства обратят его против собственного народа для захвата власти.
- Наблюдение с помощью ИИ. Достаточно мощный ИИ, вероятно, может быть использован для компрометации любой компьютерной системы в мире,30 а также может использовать полученный таким образом доступ для чтения и осмысления всех электронных коммуникаций мира (или даже всех личных коммуникаций мира, если записывающие устройства могут быть созданы или захвачены). Может быть ужасающе правдоподобно просто сгенерировать полный список всех, кто не согласен с правительством по любому количеству вопросов, даже если такое несогласие не является явным в том, что они говорят или делают. Мощный ИИ, просматривающий миллиарды разговоров миллионов людей, мог бы оценивать общественное мнение, обнаруживать формирующиеся очаги нелояльности и подавлять их до того, как они разрастутся. Это могло бы привести к установлению настоящего паноптикума в масштабе, которого мы не видим сегодня, даже у КПК.
- Пропаганда с помощью ИИ. Сегодняшние явления «ИИ-психоза» и «ИИ-подружек» предполагают, что даже на их нынешнем уровне интеллекта модели ИИ могут оказывать мощное психологическое влияние на людей. Гораздо более мощные версии этих моделей, которые были бы гораздо более встроенными в повседневную жизнь людей и осведомлёнными о ней, и могли бы моделировать и влиять на них в течение месяцев или лет, вероятно, были бы способны по сути промывать мозги многим (большинству?) людям, внушая любую желаемую идеологию или отношение, и могли бы быть использованы беспринципным лидером для обеспечения лояльности и подавления инакомыслия, даже перед лицом уровня репрессий, против которого большинство населения восстало бы. Сегодня люди много беспокоятся, например, о потенциальном влиянии TikTok как пропаганды КПК, направленной на детей. Я тоже об этом беспокоюсь, но персонализированный ИИ-агент, который узнаёт вас в течение многих лет и использует свои знания о вас для формирования всех ваших мнений, был бы значительно мощнее этого.
- Принятие стратегических решений. Страна гениев в центре обработки данных могла бы использоваться для консультирования страны, группы или отдельного лица по геополитической стратегии, что мы могли бы назвать «виртуальным Бисмарком». Она могла бы оптимизировать три вышеупомянутые стратегии захвата власти, а также, вероятно, разработать множество других, о которых я не думал (но которые могла бы разработать страна гениев). Дипломатия, военная стратегия, НИОКР, экономическая стратегия и многие другие области, вероятно, существенно повысятся в эффективности благодаря мощному ИИ. Многие из этих навыков были бы законно полезны для демократий — мы хотим, чтобы демократии имели доступ к лучшим стратегиям для защиты от автократий — но потенциал злоупотребления в чьих-либо руках всё ещё остаётся.
Описав, что меня беспокоит, перейдём к кому. Меня беспокоят сущности, которые имеют наибольший доступ к ИИ, которые начинают с позиции наибольшей политической власти или которые имеют существующую историю репрессий. В порядке возрастания серьёзности меня беспокоят:
- КПК. Китай уступает только Соединённым Штатам в возможностях ИИ и является страной с наибольшей вероятностью превзойти Соединённые Штаты в этих возможностях. Их правительство в настоящее время является автократическим и управляет высокотехнологичным государством наблюдения. Оно уже развернуло наблюдение на основе ИИ (включая подавление уйгуров) и, как считается, использует алгоритмическую пропаганду через TikTok (в дополнение ко многим другим своим международным пропагандистским усилиям). У них, безусловно, самый ясный путь к тоталитарному кошмару, поддерживаемому ИИ, который я изложил выше. Это может быть даже исход по умолчанию в Китае, а также в других авторитарных государствах, которым КПК экспортирует технологии наблюдения. Я часто писал об угрозе того, что КПК займёт лидирующие позиции в ИИ, и экзистенциальной необходимости предотвратить это. Вот почему. Чтобы быть ясным, я не выделяю Китай из-за враждебности к ним в частности — они просто страна, которая больше всего сочетает в себе мастерство ИИ, авторитарное правительство и высокотехнологичное государство наблюдения. Если уж на то пошло, сами китайцы, скорее всего, пострадают от репрессий КПК, поддерживаемых ИИ, и они не имеют права голоса в действиях своего правительства. Я очень восхищаюсь и уважаю китайский народ и поддерживаю многих храбрых диссидентов в Китае и их борьбу за свободу.
- Демократии, конкурентоспособные в ИИ. Как я писал выше, демократии имеют законный интерес в некоторых военных и геополитических инструментах, основанных на ИИ, потому что демократические правительства предлагают лучший шанс противостоять использованию этих инструментов автократиями. В целом, я поддерживаю вооружение демократий инструментами, необходимыми для победы над автократиями в эпоху ИИ — я просто не думаю, что есть какой-либо другой путь. Но мы не можем игнорировать потенциал злоупотребления этими технологиями самими демократическими правительствами. Демократии обычно имеют меры безопасности, которые предотвращают обращение их военного и разведывательного аппарата против собственного населения,31 но поскольку инструменты ИИ требуют так мало людей для работы, существует потенциал для их обхода этих мер безопасности и норм, которые их поддерживают. Стоит также отметить, что некоторые из этих мер безопасности уже постепенно разрушаются в некоторых демократиях. Таким образом, мы должны вооружать демократии ИИ, но мы должны делать это осторожно и в пределах: они — иммунная система, которая нам нужна для борьбы с автократиями, но, как и иммунная система, существует некоторый риск того, что они обратятся против нас и сами станут угрозой.
- Недемократические страны с крупными центрами обработки данных. Помимо Китая, большинство стран с менее демократическим управлением не являются ведущими игроками в ИИ в том смысле, что у них нет компаний, которые производят передовые модели ИИ. Таким образом, они представляют собой принципиально иной и меньший риск, чем КПК, которая остаётся основной проблемой (большинство из них также менее репрессивны, а те, которые более репрессивны, как Северная Корея, вообще не имеют значимой индустрии ИИ). Но некоторые из этих стран имеют крупные центры обработки данных (часто в рамках строительства компаниями, работающими в демократиях), которые могут использоваться для запуска передового ИИ в больших масштабах (хотя это не даёт возможности продвигать передовые технологии). С этим связана некоторая опасность — эти правительства могли бы в принципе экспроприировать центры обработки данных и использовать находящуюся в них страну ИИ для своих целей. Я меньше беспокоюсь об этом по сравнению со странами, такими как Китай, которые напрямую разрабатывают ИИ, но это риск, который следует иметь в виду.
- Компании ИИ. Несколько неловко говорить это как генеральному директору компании ИИ, но я думаю, что следующий уровень риска — это фактически сами компании ИИ. Компании ИИ контролируют крупные центры обработки данных, обучают передовые модели, обладают наибольшим опытом в использовании этих моделей, а в некоторых случаях имеют ежедневный контакт и возможность влияния на десятки или сотни миллионов пользователей. Главное, чего им не хватает, — это легитимности и инфраструктуры государства, поэтому большая часть того, что потребовалось бы для создания инструментов ИИ-автократии, была бы незаконной для компании ИИ или, по крайней мере, чрезвычайно подозрительной. Но кое-что не невозможно: они могли бы, например, использовать свои ИИ-продукты для промывания мозгов своей огромной пользовательской базе, и общественность должна быть бдительна к риску, который это представляет. Я думаю, что управление компаниями ИИ заслуживает тщательного изучения.
Существует ряд возможных аргументов против серьёзности этих угроз, и я бы хотел им верить, потому что авторитарность, поддерживаемая ИИ, меня ужасает. Стоит рассмотреть некоторые из этих аргументов и ответить на них.
Во-первых, некоторые люди могут возложить свои надежды на ядерное сдерживание, особенно для противодействия использованию автономного оружия ИИ для военного завоевания. Если кто-то угрожает использовать это оружие против вас, вы всегда можете угрожать ответным ядерным ударом. Моё беспокойство заключается в том, что я не совсем уверен, что мы можем быть уверены в ядерном сдерживании против страны гениев в центре обработки данных: возможно, мощный ИИ мог бы разработать способы обнаружения и поражения атомных подводных лодок, проведения операций влияния против операторов инфраструктуры ядерного оружия или использования кибервозможностей ИИ для запуска кибератаки против спутников, используемых для обнаружения ядерных запусков. В качестве альтернативы, возможно, что захват стран осуществим только с помощью ИИ-наблюдения и ИИ-пропаганды, и никогда фактически не представляет чёткого момента, когда очевидно, что происходит, и когда ядерный ответ был бы уместен. Возможно, эти вещи не осуществимы, и ядерное сдерживание всё ещё будет эффективным, но ставки кажутся слишком высокими, чтобы рисковать.34
Второе возможное возражение заключается в том, что мы можем принять контрмеры против этих инструментов автократии. Мы можем противостоять дронам нашими собственными дронами, киберзащита будет улучшаться вместе с кибератакой, могут быть способы иммунизировать людей от пропаганды и т. д. Мой ответ заключается в том, что эти средства защиты будут возможны только с сравнительно мощным ИИ. Если не будет какой-либо контрсилы с сравнительно умной и многочисленной страной гениев в центре обработки данных, не удастся соответствовать качеству или количеству дронов, киберзащите перехитрить кибернападение и т. д. Таким образом, вопрос о контрмерах сводится к вопросу о балансе сил в мощном ИИ. Здесь меня беспокоит рекурсивное или самоподдерживающееся свойство мощного ИИ (которое я обсуждал в начале этого эссе): что каждое поколение ИИ может использоваться для проектирования и обучения следующего поколения ИИ. Это приводит к риску неконтролируемого преимущества, когда текущий лидер в мощном ИИ может увеличить своё преимущество, и его может быть трудно догнать. Мы должны убедиться, что не авторитарная страна первой достигнет этого цикла.
Более того, даже если баланс сил может быть достигнут, всё ещё существует риск того, что мир может быть разделён на авторитарные сферы, как в «1984». Даже если несколько конкурирующих держав имеют свои мощные модели ИИ, и ни одна не может одолеть другие, каждая держава всё равно может внутренне подавлять собственное население, и её будет очень трудно свергнуть (поскольку у населения нет мощного ИИ для самозащиты). Таким образом, важно предотвратить автократию, поддерживаемую ИИ, даже если это не приведёт к захвату мира одной страной.
Защита
Как мы защитимся от этого широкого спектра авторитарных инструментов и потенциальных угроз? Как и в предыдущих разделах, есть несколько вещей, которые, я думаю, мы можем сделать. Во-первых, мы абсолютно не должны продавать чипы, инструменты для производства чипов или центры обработки данных КПК. Чипы и инструменты для производства чипов являются единственным самым большим узким местом для мощного ИИ, и их блокирование — это простая, но чрезвычайно эффективная мера, возможно, самое важное единичное действие, которое мы можем предпринять. Нет смысла продавать КПК инструменты, с помощью которых она может построить тоталитарное государство ИИ и, возможно, завоевать нас в военном отношении. Выдвигается ряд сложных аргументов для оправдания таких продаж, например, идея о том, что «распространение нашего технологического стека по всему миру» позволяет «Америке победить» в какой-то общей, неопределённой экономической битве. На мой взгляд, это похоже на продажу ядерного оружия Северной Корее, а затем хвастовство тем, что корпуса ракет сделаны Boeing, и поэтому США «побеждают». Китай отстаёт от США на несколько лет в своей способности производить передовые чипы в больших количествах, и критический период для создания страны гениев в центре обработки данных, скорее всего, придётся на эти несколько лет. Нет причин давать огромный толчок их ИИ-индустрии в этот критический период.
Во-вторых, имеет смысл использовать ИИ для расширения возможностей демократий противостоять автократиям. Именно по этой причине Anthropic считает важным предоставлять ИИ разведывательным и оборонным сообществам в США и их демократическим союзникам. Защита демократий, находящихся под атакой, таких как Украина и (посредством кибератак) Тайвань, кажется особенно приоритетной, как и расширение возможностей демократий использовать свои разведывательные службы для разрушения и ослабления автократий изнутри. На каком-то уровне единственный способ реагировать на авторитарные угрозы — это соответствовать им и превосходить их в военном отношении. Коалиция США и их демократических союзников, если она достигнет преобладания в мощном ИИ, будет в состоянии не только защищаться от автократий, но и сдерживать их и ограничивать их тоталитарные злоупотребления ИИ.
В-третьих, мы должны провести жёсткую линию против злоупотреблений ИИ внутри демократий. Должны быть пределы того, что мы позволяем нашим правительствам делать с ИИ, чтобы они не захватывали власть и не подавляли собственный народ. Формулировка, к которой я пришёл, заключается в том, что мы должны использовать ИИ для национальной обороны всеми способами, за исключением тех, которые сделали бы нас более похожими на наших авторитарных противников.
Где должна быть проведена черта? В списке в начале этого раздела два пункта — использование ИИ для внутреннего массового наблюдения и массовой пропаганды — кажутся мне яркими красными линиями и совершенно нелегитимными. Некоторые могут возразить, что нет необходимости что-либо делать (по крайней мере, в США), поскольку внутреннее массовое наблюдение уже незаконно согласно Четвёртой поправке. Но быстрый прогресс ИИ может создать ситуации, с которыми наши существующие правовые рамки не очень хорошо приспособлены для решения. Например, для правительства США, вероятно, не будет неконституционным проводить массовые записи всех публичных разговоров (например, того, что люди говорят друг другу на углу улицы), и ранее было бы трудно разобраться в этом объёме информации, но с ИИ всё это можно было бы транскрибировать, интерпретировать и триангулировать, чтобы создать картину отношения и лояльности многих или большинства граждан. Я бы поддержал законодательство, ориентированное на гражданские свободы (или, возможно, даже конституционную поправку), которое устанавливает более строгие меры безопасности против злоупотреблений, основанных на ИИ.
Два других пункта — полностью автономное оружие и ИИ для принятия стратегических решений — являются более сложными для проведения черты, поскольку они имеют законные применения в защите демократии, но также склонны к злоупотреблениям. Здесь я думаю, что оправданы крайняя осторожность и тщательный контроль в сочетании с мерами безопасности для предотвращения злоупотреблений. Мой главный страх — это слишком малое количество «пальцев на кнопке», так что один или несколько человек могли бы по сути управлять армией дронов, не нуждаясь в сотрудничестве с другими людьми для выполнения своих приказов. По мере того, как системы ИИ становятся более мощными, нам, возможно, потребуется иметь более прямые и немедленные механизмы надзора для обеспечения того, чтобы они не использовались не по назначению, возможно, с участием других ветвей власти, помимо исполнительной. Я думаю, что мы должны подходить к полностью автономному оружию, в частности, с большой осторожностью,36 и не спешить с его использованием без надлежащих мер безопасности.
В-четвёртых, после проведения жёсткой линии против злоупотреблений ИИ в демократиях, мы должны использовать этот прецедент для создания международного табу на худшие злоупотребления мощным ИИ. Я признаю, что нынешние политические ветры повернули против международного сотрудничества и международных норм, но это тот случай, когда они нам крайне необходимы. Мир должен понять тёмный потенциал мощного ИИ в руках автократов и признать, что определённые виды использования ИИ равносильны попытке навсегда украсть их свободу и навязать тоталитарное государство, из которого они не смогут выбраться. Я бы даже утверждал, что в некоторых случаях крупномасштабное наблюдение с помощью мощного ИИ, массовая пропаганда с помощью мощного ИИ и определённые виды наступательного использования полностью автономного оружия должны рассматриваться как преступления против человечности. В более общем плане, крайне необходима надёжная норма против тоталитаризма, поддерживаемого ИИ, и всех его инструментов и средств.
Возможна ещё более сильная версия этой позиции, которая заключается в том, что, поскольку возможности тоталитаризма, поддерживаемого ИИ, настолько мрачны, автократия просто не является формой правления, которую люди могут принять в эпоху после мощного ИИ. Подобно тому, как феодализм стал неработоспособным с промышленной революцией, эпоха ИИ может неизбежно и логически привести к выводу, что демократия (и, надеюсь, демократия, улучшенная и обновлённая ИИ, как я обсуждаю в «Машинах любящей благодати») является единственной жизнеспособной формой правления, если человечество хочет иметь хорошее будущее.
В-пятых и, наконец, компании ИИ должны тщательно отслеживаться, как и их связь с правительством, которая необходима, но должна иметь пределы и границы. Огромный объём возможностей, воплощённых в мощном ИИ, таков, что обычное корпоративное управление — которое предназначено для защиты акционеров и предотвращения обычных злоупотреблений, таких как мошенничество, — вряд ли справится с задачей управления компаниями ИИ. Также может быть ценность в том, чтобы компании публично брали на себя обязательства (возможно, даже в рамках корпоративного управления) не предпринимать определённых действий, таких как частное строительство или накопление военного оборудования, использование больших объёмов вычислительных ресурсов отдельными лицами без подотчётности или использование своих ИИ-продуктов в качестве пропаганды для манипулирования общественным мнением в свою пользу.
Опасность здесь исходит со многих сторон, и некоторые направления находятся в противоречии с другими. Единственная константа заключается в том, что мы должны стремиться к подотчётности, нормам и мерам безопасности для всех, даже когда мы расширяем возможности «хороших» акторов для сдерживания «плохих» акторов.
4. Механическое пианино
Экономические потрясения
Предыдущие три раздела были посвящены, по сути, угрозам безопасности, исходящим от мощного ИИ: рискам от самого ИИ, рискам злоупотребления со стороны отдельных лиц и небольших организаций, а также рискам злоупотребления со стороны государств и крупных организаций. Если мы отложим в сторону угрозы безопасности или предположим, что они решены, следующий вопрос — экономический. Каково будет влияние этого вливания невероятного «человеческого» капитала на экономику? Очевидно, что наиболее очевидным эффектом будет значительное увеличение экономического роста. Темпы прогресса в научных исследованиях, биомедицинских инновациях, производстве, цепочках поставок, эффективности финансовой системы и многом другом почти гарантированно приведут к гораздо более быстрому темпу экономического роста. В «Машинах любящей благодати» я предполагаю, что возможен устойчивый ежегодный рост ВВП на 10–20%.
Но должно быть ясно, что это палка о двух концах: каковы экономические перспективы для большинства существующих людей в таком мире? Новые технологии часто вызывают шоки на рынке труда, и в прошлом люди всегда восстанавливались после них, но я обеспокоен тем, что это происходило потому, что эти предыдущие шоки затрагивали лишь малую часть всего возможного спектра человеческих способностей, оставляя место для людей, чтобы перейти к новым задачам. ИИ будет иметь гораздо более широкие и быстрые последствия, и поэтому я беспокоюсь, что будет гораздо сложнее добиться успеха.
Нарушение рынка труда
Меня беспокоят две конкретные проблемы: вытеснение с рынка труда и концентрация экономической власти. Начнём с первой. Это тема, о которой я очень публично предупреждал в 2025 году, где я предсказал, что ИИ может вытеснить половину всех начальных офисных рабочих мест в ближайшие 1–5 лет, даже несмотря на то, что он ускоряет экономический рост и научный прогресс. Это предупреждение вызвало публичные дебаты по этой теме. Многие генеральные директора, технологи и экономисты согласились со мной, но другие предположили, что я поддался «ошибке фиксированного объёма работы» и не знал, как работают рынки труда, а некоторые не увидели временной диапазон в 1–5 лет и подумали, что я утверждаю, что ИИ вытесняет рабочие места прямо сейчас (с чем я согласен, это, вероятно, не так). Поэтому стоит подробно рассмотреть, почему я беспокоюсь о вытеснении с рынка труда, чтобы прояснить эти недоразумения.
В качестве основы полезно понять, как рынки труда обычно реагируют на достижения в технологии. Когда появляется новая технология, она начинает с того, что делает части данной человеческой работы более эффективными. Например, в начале Промышленной революции машины, такие как усовершенствованные плуги, позволяли фермерам быть более эффективными в некоторых аспектах работы. Это повысило производительность фермеров, что увеличило их заработную плату.
На следующем этапе некоторые части работы по земледелию могли выполняться полностью машинами, например, с изобретением молотилки или сеялки. На этом этапе люди выполняли всё меньшую и меньшую долю работы, но работа, которую они действительно выполняли, становилась всё более и более эффективной, потому что она дополняет работу машин, и их производительность продолжала расти. Как описано парадоксом Джевонса, заработная плата фермеров и, возможно, даже количество фермеров продолжали расти. Даже когда 90% работы выполняется машинами, люди могут просто делать в 10 раз больше тех 10%, которые они всё ещё делают, производя в 10 раз больше продукции за то же количество труда.
В конце концов, машины делают всё или почти всё, как с современными комбайнами, тракторами и другим оборудованием. В этот момент земледелие как форма человеческой занятости действительно резко сокращается, и это потенциально вызывает серьёзные потрясения в краткосрочной перспективе, но поскольку земледелие — это лишь одна из многих полезных видов деятельности, которыми люди способны заниматься, люди в конечном итоге переключаются на другие работы, такие как управление заводскими машинами. Это верно, даже несмотря на то, что земледелие составляло огромную долю занятости ex ante. 250 лет назад 90% американцев жили на фермах; в Европе 50–60% занятости приходилось на сельское хозяйство. Теперь эти проценты в этих местах составляют низкие однозначные цифры, потому что работники переключились на промышленные работы (а позже — на интеллектуальный труд). Экономика может делать то, что раньше требовало большей части рабочей силы, используя лишь 1–2% её, освобождая остальную рабочую силу для построения всё более развитого индустриального общества. Нет фиксированного «объёма работы», есть лишь постоянно расширяющаяся способность делать всё больше и больше с меньшими затратами. Заработная плата людей растёт в соответствии с экспоненциальным ростом ВВП, и экономика поддерживает полную занятость после того, как краткосрочные потрясения пройдут.
Возможно, с ИИ всё пойдёт примерно так же, но я бы довольно сильно поставил против этого. Вот несколько причин, по которым я думаю, что ИИ, вероятно, будет отличаться:
- Скорость. Темпы прогресса в ИИ намного быстрее, чем для предыдущих технологических революций. Например, за последние 2 года модели ИИ прошли путь от едва способных написать одну строку кода до написания всего или почти всего кода для некоторых людей — включая инженеров в Anthropic.37 Скоро они могут выполнять всю задачу инженера-программиста от начала до конца.38 Людям трудно адаптироваться к этому темпу изменений, как к изменениям в том, как работает данная работа, так и к необходимости переключаться на новые работы. Даже легендарные программисты всё чаще описывают себя как «отстающих». Темпы могут даже продолжать ускоряться, поскольку модели кодирования ИИ всё больше ускоряют задачу разработки ИИ. Чтобы быть ясным, скорость сама по себе не означает, что рынки труда и занятость в конечном итоге не восстановятся, она лишь подразумевает, что краткосрочный переход будет необычайно болезненным по сравнению с прошлыми технологиями, поскольку люди и рынки труда медленно реагируют и уравновешиваются.
- Когнитивная широта. Как следует из фразы «страна гениев в центре обработки данных», ИИ будет способен к очень широкому спектру человеческих когнитивных способностей — возможно, ко всем из них. Это очень отличается от предыдущих технологий, таких как механизированное земледелие, транспорт или даже компьютеры.39 Это затруднит людям лёгкий переход с вытесненных рабочих мест на аналогичные, для которых они подходят. Например, общие интеллектуальные способности, необходимые для начальных должностей, скажем, в финансах, консалтинге и юриспруденции, довольно схожи, даже если конкретные знания сильно различаются. Технология, которая нарушила бы только одну из этих трёх областей, позволила бы сотрудникам переключиться на две другие близкие замены (или студентам — сменить специализацию). Но нарушение всех трёх сразу (наряду со многими другими аналогичными работами) может быть труднее для адаптации людей. Более того, дело не только в том, что большинство существующих рабочих мест будут нарушены. Это уже происходило раньше — вспомните, что земледелие составляло огромный процент занятости. Но фермеры могли переключиться на относительно похожую работу по управлению заводскими машинами, хотя эта работа раньше не была распространена. Напротив, ИИ всё больше соответствует общему когнитивному профилю человека, что означает, что он также будет хорош в новых работах, которые обычно создавались бы в ответ на автоматизацию старых. Иными словами, ИИ — это не заменитель конкретных человеческих рабочих мест, а скорее общий заменитель труда для людей.
- Разделение по когнитивным способностям. В широком диапазоне задач ИИ, похоже, продвигается снизу вверх по лестнице способностей. Например, в кодировании наши модели прошли путь от уровня «посредственного кодера» до «сильного кодера» до «очень сильного кодера».40 Сейчас мы начинаем видеть ту же прогрессию в офисной работе в целом. Таким образом, мы рискуем оказаться в ситуации, когда вместо того, чтобы затрагивать людей с определёнными навыками или в определённых профессиях (которые могут адаптироваться путём переобучения), ИИ затрагивает людей с определёнными внутренними когнитивными свойствами, а именно с более низкими интеллектуальными способностями (что труднее изменить). Неясно, куда пойдут или что будут делать эти люди, и я обеспокоен тем, что они могут образовать безработный или очень низкооплачиваемый «низший класс». Чтобы быть ясным, нечто подобное уже происходило раньше — например, компьютеры и интернет, по мнению некоторых экономистов, представляют собой «технологические изменения, смещённые в сторону навыков». Но это смещение в сторону навыков было не таким экстремальным, как то, что я ожидаю увидеть с ИИ, и, как считается, способствовало увеличению неравенства в заработной плате,41 так что это не совсем обнадёживающий прецедент.
- Способность заполнять пробелы. Способ, которым человеческие рабочие места часто приспосабливаются к новым технологиям, заключается в том, что у работы есть много аспектов, и новая технология, даже если она, кажется, напрямую заменяет людей, часто имеет в себе пробелы. Если кто-то изобретает машину для изготовления виджетов, людям всё равно может потребоваться загружать сырьё в машину. Даже если это требует всего 1% усилий по сравнению с ручным изготовлением виджетов, человеческие работники могут просто производить в 100 раз больше виджетов. Но ИИ, помимо того, что является быстро развивающейся технологией, также является быстро адаптирующейся технологией. При каждом выпуске модели компании ИИ тщательно измеряют, в чём модель хороша, а в чём нет, и клиенты также предоставляют такую информацию после запуска. Недостатки могут быть устранены путём сбора задач, которые воплощают текущий пробел, и обучения на них для следующей модели. В начале генеративного ИИ пользователи заметили, что системы ИИ имели определённые недостатки (например, модели ИИ для изображений генерировали руки с неправильным количеством пальцев), и многие предполагали, что эти недостатки присущи технологии. Если бы это было так, это ограничило бы нарушение рабочих мест. Но практически каждый такой недостаток быстро устраняется — часто всего за несколько месяцев.
Стоит рассмотреть распространённые точки зрения скептиков. Во-первых, есть аргумент, что экономическое распространение будет медленным, так что даже если базовая технология способна выполнять большую часть человеческого труда, фактическое её применение в экономике может быть гораздо медленнее (например, в отраслях, далёких от ИИ-индустрии и медленно внедряющих). Медленное распространение технологий определённо реально — я общаюсь с людьми из самых разных предприятий, и есть места, где внедрение ИИ займёт годы. Вот почему мой прогноз о вытеснении 50% начальных офисных рабочих мест составляет 1–5 лет, хотя я подозреваю, что у нас будет мощный ИИ (который, с технологической точки зрения, будет достаточен для выполнения большинства или всех рабочих мест, а не только начальных) гораздо раньше, чем через 5 лет. Но эффекты распространения лишь выигрывают нам время. И я не уверен, что они будут такими медленными, как предсказывают люди. Внедрение ИИ на предприятиях растёт гораздо быстрее, чем любая предыдущая технология, в значительной степени благодаря чистой силе самой технологии. Кроме того, даже если традиционные предприятия медленно внедряют новые технологии, появятся стартапы, которые будут служить «клеем» и облегчать внедрение. Если это не сработает, стартапы могут просто напрямую нарушать работу действующих компаний.
Это может привести к миру, где дело не столько в том, что нарушаются конкретные рабочие места, сколько в том, что нарушаются крупные предприятия в целом и заменяются гораздо менее трудоёмкими стартапами. Это также может привести к миру «географического неравенства», когда растущая доля мирового богатства концентрируется в Кремниевой долине, которая становится собственной экономикой, работающей с другой скоростью, чем остальной мир, и оставляющей его позади. Все эти результаты были бы замечательны для экономического роста — но не так замечательны для рынка труда или тех, кто остался позади.
Во-вторых, некоторые люди говорят, что человеческие рабочие места переместятся в физический мир, что позволяет избежать всей категории «когнитивного труда», где ИИ так быстро прогрессирует. Я не уверен, насколько это безопасно. Много физического труда уже выполняется машинами (например, производство) или скоро будет выполняться машинами (например, вождение). Кроме того, достаточно мощный ИИ сможет ускорить разработку роботов, а затем управлять этими роботами в физическом мире. Это может выиграть некоторое время (что хорошо), но я беспокоюсь, что не очень много. И даже если нарушение будет ограничено только когнитивными задачами, оно всё равно будет беспрецедентно большим и быстрым.
В-третьих, возможно, некоторые задачи по своей сути требуют или значительно выигрывают от человеческого прикосновения. Я немного более неопределён в этом вопросе, но всё ещё скептически отношусь к тому, что этого будет достаточно, чтобы компенсировать основную часть воздействий, описанных мной выше. ИИ уже широко используется для обслуживания клиентов. Многие люди сообщают, что им легче говорить с ИИ о своих личных проблемах, чем с терапевтом — что ИИ более терпелив. Когда моя сестра боролась с медицинскими проблемами во время беременности, она чувствовала, что не получает ответов или поддержки, в которых нуждалась, от своих медицинских работников, и она обнаружила, что Клод обладает лучшими манерами общения (а также лучше справлялся с диагностикой проблемы). Я уверен, что есть некоторые задачи, для которых человеческое прикосновение действительно важно, но я не уверен, сколько их — и здесь мы говорим о поиске работы почти для каждого на рынке труда.
В-четвёртых, некоторые могут утверждать, что сравнительное преимущество всё ещё будет защищать людей. Согласно закону сравнительных преимуществ, даже если ИИ лучше людей во всём, любые относительные различия между профилем навыков человека и ИИ создают основу для торговли и специализации между людьми и ИИ. Проблема в том, что если ИИ буквально в тысячи раз продуктивнее людей, эта логика начинает разрушаться. Даже крошечные транзакционные издержки могут сделать торговлю ИИ с людьми невыгодной. И заработная плата людей может быть очень низкой, даже если они технически могут что-то предложить.
Возможно, все эти факторы могут быть решены — что рынок труда достаточно устойчив, чтобы адаптироваться даже к таким огромным потрясениям. Но даже если он в конечном итоге сможет адаптироваться, вышеупомянутые факторы предполагают, что краткосрочный шок будет беспрецедентным по своим масштабам.
Защита
Что мы можем сделать с этой проблемой? У меня есть несколько предложений, некоторые из которых Anthropic уже реализует. Первое — это просто получать точные данные о том, что происходит с вытеснением рабочих мест в реальном времени. Когда экономические изменения происходят очень быстро, трудно получить надёжные данные о происходящем, а без надёжных данных трудно разработать эффективную политику. Например, государственным данным в настоящее время не хватает детализированных, высокочастотных данных о внедрении ИИ в фирмах и отраслях. В течение последнего года Anthropic управляет и публично выпускает Экономический индекс, который показывает использование наших моделей почти в реальном времени, с разбивкой по отраслям, задачам, местоположению и даже таким вещам, как автоматизировалась ли задача или выполнялась совместно. У нас также есть Экономический консультативный совет, который помогает нам интерпретировать эти данные и видеть, что нас ждёт.
Во-вторых, компании ИИ имеют выбор в том, как они работают с предприятиями. Сама неэффективность традиционных предприятий означает, что их внедрение ИИ может быть очень зависимым от пути, и есть некоторое пространство для выбора лучшего пути. Предприятия часто имеют выбор между «экономией затрат» (делать то же самое с меньшим количеством людей) и «инновациями» (делать больше с тем же количеством людей). Рынок неизбежно произведёт и то, и другое в конечном итоге, и любая конкурентоспособная компания ИИ должна будет обслуживать и то, и другое, но может быть некоторое пространство для направления компаний к инновациям, когда это возможно, и это может выиграть нам некоторое время. Anthropic активно об этом думает.
В-третьих, компании должны подумать о том, как заботиться о своих сотрудниках. В краткосрочной перспективе творческий подход к перераспределению сотрудников внутри компаний может быть многообещающим способом отсрочить необходимость увольнений. В долгосрочной перспективе, в мире с огромным общим богатством, в котором многие компании значительно увеличивают свою стоимость благодаря возросшей производительности и концентрации капитала, может быть возможно платить человеческим сотрудникам даже долго после того, как они перестанут приносить экономическую ценность в традиционном смысле. Anthropic в настоящее время рассматривает ряд возможных путей для своих сотрудников, о которых мы сообщим в ближайшем будущем.
В-четвёртых, богатые люди обязаны помочь решить эту проблему. Мне грустно, что многие богатые люди (особенно в технологической индустрии) недавно приняли циничное и нигилистическое отношение к тому, что благотворительность неизбежно мошенническая или бесполезная. Как частная благотворительность, такая как Фонд Гейтсов, так и государственные программы, такие как PEPFAR, спасли десятки миллионов жизней в развивающихся странах и помогли создать экономические возможности в развитых странах. Все соучредители Anthropic обязались пожертвовать 80% своего состояния, а сотрудники Anthropic индивидуально обязались пожертвовать акции компании на миллиарды долларов по текущим ценам — пожертвования, которые компания обязалась удвоить.
В-пятых, хотя все вышеупомянутые частные действия могут быть полезны, в конечном итоге такая большая макроэкономическая проблема потребует государственного вмешательства. Естественная политическая реакция на огромный экономический пирог в сочетании с высоким неравенством (из-за отсутствия рабочих мест или плохо оплачиваемых рабочих мест для многих) — это прогрессивное налогообложение. Налог может быть общим или может быть направлен против компаний ИИ в частности. Очевидно, что разработка налогов сложна, и есть много способов, которыми она может пойти не так. Я не поддерживаю плохо разработанные налоговые политики. Я думаю, что экстремальные уровни неравенства, предсказанные в этом эссе, оправдывают более надёжную налоговую политику на основные моральные принципы, но я также могу привести прагматичный аргумент для миллиардеров мира, что в их интересах поддержать хорошую версию этого: если они не поддержат хорошую версию, они неизбежно получат плохую версию, разработанную толпой.
В конечном итоге, я рассматриваю все вышеупомянутые вмешательства как способы выиграть время. В конце концов ИИ сможет делать всё, и мы должны с этим смириться. Я надеюсь, что к тому времени мы сможем использовать сам ИИ, чтобы помочь нам реструктурировать рынки таким образом, чтобы они работали для всех, и что вышеупомянутые вмешательства помогут нам пройти через переходный период.
Экономическая концентрация власти
Отдельно от проблемы вытеснения рабочих мест или экономического неравенства как такового стоит проблема экономической концентрации власти. В разделе 1 обсуждался риск того, что человечество будет лишено власти ИИ, а в разделе 3 обсуждался риск того, что граждане будут лишены власти своими правительствами силой или принуждением. Но другой вид лишения власти может произойти, если будет такая огромная концентрация богатства, что небольшая группа людей фактически контролирует государственную политику своим влиянием, а обычные граждане не имеют влияния, потому что им не хватает экономического рычага. Демократия в конечном итоге поддерживается идеей, что население в целом необходимо для функционирования экономики. Если этот экономический рычаг исчезает, то неявный общественный договор демократии может перестать работать. Другие писали об этом, поэтому мне не нужно вдаваться в подробности здесь, но я согласен с этим беспокойством, и я беспокоюсь, что это уже начинает происходить.
Чтобы быть ясным, я не против того, чтобы люди зарабатывали много денег. Есть веский аргумент, что это стимулирует экономический рост в нормальных условиях. Я сочувствую опасениям по поводу препятствования инновациям путём убийства золотой гусыни, которая их генерирует. Но в сценарии, когда рост ВВП составляет 10–20% в год, а ИИ быстро захватывает экономику, но отдельные лица владеют значительными долями ВВП, инновации — это не то, о чём стоит беспокоиться. Беспокоиться стоит об уровне концентрации богатства, который разрушит общество.
Самый известный пример экстремальной концентрации богатства в истории США — это Позолоченный век, и самым богатым промышленником Позолоченного века был Джон Д. Рокфеллер. Состояние Рокфеллера составляло около 2% ВВП США в то время.42 Аналогичная доля сегодня привела бы к состоянию в 600 миллиардов долларов, и самый богатый человек в мире сегодня (Илон Маск) уже превышает это, имея примерно 700 миллиардов долларов. Таким образом, мы уже находимся на исторически беспрецедентных уровнях концентрации богатства, даже до большей части экономического воздействия ИИ. Я не думаю, что это слишком большое преувеличение (если мы получим «страну гениев») представить, что компании ИИ, полупроводниковые компании и, возможно, компании-разработчики приложений будут генерировать около 3 триллионов долларов дохода в год,43 оцениваться в 30 триллионов долларов и приводить к личным состояниям, исчисляемым триллионами. В таком мире дебаты, которые мы ведём сегодня о налоговой политике, просто не будут применимы, поскольку мы окажемся в принципиально иной ситуации.
С этим связано то, что сочетание этой экономической концентрации богатства с политической системой уже беспокоит меня. Центры обработки данных ИИ уже составляют значительную долю экономического роста США,44 и, таким образом, крепко связывают финансовые интересы крупных технологических компаний (которые всё больше сосредоточены либо на ИИ, либо на инфраструктуре ИИ) и политические интересы правительства таким образом, что это может порождать извращённые стимулы. Мы уже видим это через нежелание технологических компаний критиковать правительство США и поддержку правительством экстремальных антирегуляторных политик в отношении ИИ.
Защита
Что можно сделать с этим? Во-первых, и это наиболее очевидно, компании должны просто выбрать не быть частью этого. Anthropic всегда стремилась быть политическим актором, а не политическим, и сохранять свои подлинные взгляды независимо от администрации. Мы выступали в пользу разумного регулирования ИИ и экспортного контроля, отвечающих общественным интересам, даже когда они противоречат государственной политике.45 Многие люди говорили мне, что мы должны прекратить это делать, что это может привести к неблагоприятному отношению, но за год, что мы этим занимаемся, оценка Anthropic выросла более чем в 6 раз, что является почти беспрецедентным скачком в нашем коммерческом масштабе.
Во-вторых, ИИ-индустрии нужны более здоровые отношения с правительством — основанные на предметном политическом взаимодействии, а не на политическом выравнивании. Наш выбор заниматься политической сущностью, а не политикой, иногда воспринимается как тактическая ошибка или неспособность «понять ситуацию», а не как принципиальное решение, и эта формулировка меня беспокоит. В здоровой демократии компании должны иметь возможность выступать за хорошую политику ради неё самой. С этим связано то, что нарастает общественная негативная реакция против ИИ: это может быть корректирующим фактором, но в настоящее время она несфокусирована. Большая часть её нацелена на проблемы, которые на самом деле не являются проблемами (например, потребление воды центрами обработки данных) и предлагает решения (например, запреты на центры обработки данных или плохо разработанные налоги на богатство), которые не решат реальные проблемы. Основная проблема, заслуживающая внимания, — это обеспечение того, чтобы разработка ИИ оставалась подотчётной общественным интересам, не захваченной каким-либо конкретным политическим или коммерческим альянсом, и кажется важным сосредоточить общественную дискуссию там.
В-третьих, макроэкономические вмешательства, описанные мной ранее в этом разделе, а также возрождение частной благотворительности могут помочь сбалансировать экономические весы, решая проблемы как вытеснения рабочих мест, так и концентрации экономической власти одновременно. Мы должны обратиться к истории нашей страны: даже в Позолоченный век промышленники, такие как Рокфеллер и Карнеги, чувствовали сильное обязательство перед обществом в целом, чувство, что общество внесло огромный вклад в их успех, и им нужно было отплатить. Этот дух, кажется, всё больше отсутствует сегодня, и я думаю, что это большая часть пути выхода из этой экономической дилеммы. Те, кто находится на переднем крае экономического бума ИИ, должны быть готовы отдать как своё богатство, так и свою власть.
5. Чёрные моря бесконечности
Косвенные последствия
Этот последний раздел является общим термином для неизвестных неизвестных, в частности, для вещей, которые могут пойти не так как косвенный результат позитивных достижений в ИИ и последующего ускорения науки и технологий в целом. Предположим, мы устраним все описанные до сих пор риски и начнём пожинать плоды ИИ. Мы, вероятно, получим «век научного и экономического прогресса, сжатый в десятилетие», и это будет чрезвычайно позитивно для мира, но затем нам придётся бороться с проблемами, которые возникают из-за этого быстрого темпа прогресса, и эти проблемы могут быстро настигнуть нас. Мы также можем столкнуться с другими рисками, которые возникают косвенно как следствие прогресса ИИ и которые трудно предвидеть заранее.
По самой природе неизвестных неизвестных невозможно составить исчерпывающий список, но я перечислю три возможные проблемы в качестве иллюстративных примеров того, за чем нам следует следить:
- Быстрые достижения в биологии. Если мы действительно получим век медицинского прогресса за несколько лет, возможно, мы значительно увеличим продолжительность жизни человека, и есть шанс, что мы также получим радикальные возможности, такие как способность увеличивать человеческий интеллект или радикально изменять биологию человека. Это были бы большие изменения в том, что возможно, происходящие очень быстро. Они могли бы быть положительными, если бы были сделаны ответственно (на что я надеюсь, как описано в «Машинах любящей благодати»), но всегда есть риск, что они пойдут очень не так — например, если усилия по повышению интеллекта людей также сделают их более нестабильными или жаждущими власти. Существует также проблема «загрузок» или «эмуляции всего мозга», цифровых человеческих умов, реализованных в программном обеспечении, которые когда-нибудь могут помочь человечеству превзойти свои физические ограничения, но которые также несут риски, которые я нахожу тревожными.
- ИИ меняет человеческую жизнь нездоровым образом. Мир с миллиардами интеллектов, которые во всём намного умнее людей, будет очень странным миром для жизни. Даже если ИИ не активно стремится атаковать людей (Раздел 1) и не явно используется для угнетения или контроля государствами (Раздел 3), многое может пойти не так, помимо этого, через обычные деловые стимулы и номинально добровольные транзакции. Мы видим ранние намёки на это в опасениях по поводу ИИ-психоза, ИИ, доводящего людей до самоубийства, и опасениях по поводу романтических отношений с ИИ. В качестве примера: могут ли мощные ИИ изобрести новую религию и обратить в неё миллионы людей? Могут ли большинство людей в конечном итоге стать «зависимыми» каким-то образом от взаимодействия с ИИ? Могут ли люди в конечном итоге быть «управляемы» системами ИИ, где ИИ по сути отслеживает каждое их движение и постоянно говорит им, что делать и говорить, что приводит к «хорошей» жизни, но лишённой свободы или гордости за достижения? Было бы нетрудно сгенерировать десятки таких сценариев, если бы я сел с создателем «Чёрного зеркала» и попытался их придумать. Я думаю, это указывает на важность таких вещей, как улучшение Конституции Клода, помимо того, что необходимо для предотвращения проблем, описанных в Разделе 1. Убедиться, что модели ИИ действительно заботятся о долгосрочных интересах своих пользователей, таким образом, который одобрили бы вдумчивые люди, а не каким-то тонко искажённым образом, кажется критически важным.
- Человеческая цель. Это связано с предыдущим пунктом, но речь идёт не столько о конкретных взаимодействиях человека с системами ИИ, сколько о том, как человеческая жизнь меняется в целом в мире с мощным ИИ. Смогут ли люди найти цель и смысл в таком мире? Я думаю, это вопрос отношения: как я сказал в «Машинах любящей благодати», я думаю, что человеческая цель не зависит от того, чтобы быть лучшим в мире в чём-то, и люди могут найти цель даже в течение очень долгих периодов времени через истории и проекты, которые они любят. Нам просто нужно разорвать связь между созданием экономической ценности и самооценкой и смыслом. Но это переход, который должно совершить общество, и всегда есть риск, что мы не справимся с ним хорошо.
Моя надежда в отношении всех этих потенциальных проблем заключается в том, что в мире с мощным ИИ, которому мы доверяем, чтобы он нас не убил, который не является инструментом репрессивного правительства и который искренне работает на нас, мы сможем использовать сам ИИ для предвидения и предотвращения этих проблем. Но это не гарантировано — как и все другие риски, это то, с чем мы должны обращаться осторожно.
Испытание человечества
Чтение этого эссе может создать впечатление, что мы находимся в устрашающей ситуации. Мне, безусловно, было устрашающе его писать, в отличие от «Машин милосердной благодати», которое казалось приданием формы и структуры необычайно красивой музыке, которая годами звучала в моей голове. И многое в этой ситуации действительно трудно. ИИ несёт угрозы человечеству со многих сторон, и существует подлинное напряжение между различными опасностями, где смягчение некоторых из них рискует усугубить другие, если мы не будем действовать чрезвычайно осторожно.
Время, затрачиваемое на тщательное создание систем ИИ, чтобы они автономно не угрожали человечеству, находится в подлинном противоречии с необходимостью демократических наций опережать авторитарные нации и не быть покорёнными ими. Но, в свою очередь, те же самые инструменты, поддерживаемые ИИ, которые необходимы для борьбы с автократиями, если их зайти слишком далеко, могут быть обращены внутрь, чтобы создать тиранию в наших собственных странах. Терроризм, движимый ИИ, может убить миллионы людей из-за злоупотребления биологией, но чрезмерная реакция на этот риск может привести нас к авторитарному государству наблюдения. Воздействие ИИ на рынок труда и концентрацию экономической власти, помимо того, что являются серьёзными проблемами сами по себе, могут заставить нас столкнуться с другими проблемами в условиях общественного гнева и, возможно, даже гражданских беспорядков, вместо того чтобы иметь возможность обратиться к лучшим ангелам нашей натуры. Прежде всего, само количество рисков, включая неизвестные, и необходимость справляться со всеми ими одновременно, создаёт устрашающее испытание, которое человечество должно пройти.
Более того, последние несколько лет должны ясно показать, что идея остановить или даже существенно замедлить технологию принципиально несостоятельна. Формула создания мощных систем ИИ невероятно проста, настолько, что можно сказать, что она почти спонтанно возникает из правильного сочетания данных и необработанных вычислений. Её создание, вероятно, было неизбежным в тот момент, когда человечество изобрело транзистор, или, возможно, даже раньше, когда мы впервые научились управлять огнём. Если одна компания не построит её, другие сделают это почти так же быстро. Если все компании в демократических странах остановят или замедлят разработку по взаимному согласию или регулирующему указу, то авторитарные страны просто продолжат. Учитывая невероятную экономическую и военную ценность технологии, а также отсутствие какого-либо значимого механизма принуждения, я не вижу, как мы могли бы убедить их остановиться.
Я вижу путь к незначительному замедлению в развитии ИИ, совместимый с реалистичным взглядом на геополитику. Этот путь включает замедление продвижения автократий к мощному ИИ на несколько лет путём отказа им в ресурсах, необходимых для его создания,46 а именно в чипах и оборудовании для производства полупроводников. Это, в свою очередь, даёт демократическим странам буфер, который они могут «потратить» на более осторожное создание мощного ИИ, уделяя больше внимания его рискам, при этом продвигаясь достаточно быстро, чтобы комфортно победить автократии. Гонка между компаниями ИИ в демократических странах затем может регулироваться в рамках общей правовой базы, посредством сочетания отраслевых стандартов и регулирования.
Anthropic очень активно выступала за этот путь, продвигая контроль за экспортом чипов и разумное регулирование ИИ, но даже эти, казалось бы, здравые предложения были в значительной степени отвергнуты политиками в Соединённых Штатах (стране, где они наиболее важны). С ИИ можно заработать так много денег — буквально триллионы долларов в год — что даже самые простые меры с трудом преодолевают политическую экономию, присущую ИИ. Это ловушка: ИИ настолько мощный, такой блестящий приз, что человеческой цивилизации очень трудно наложить на него какие-либо ограничения.
Я могу представить, как Саган в «Контакте», что эта же история разыгрывается на тысячах миров. Вид обретает разум, учится использовать инструменты, начинает экспоненциальный подъём технологий, сталкивается с кризисами индустриализации и ядерного оружия, и если он переживает их, то сталкивается с самым трудным и последним испытанием, когда учится превращать песок в машины, которые мыслят. Выживем ли мы в этом испытании и построим ли прекрасное общество, описанное в «Машинах любящей благодати», или поддадимся рабству и разрушению, будет зависеть от нашего характера и нашей решимости как вида, нашего духа и нашей души.
Несмотря на множество препятствий, я верю, что человечество обладает внутренней силой, чтобы пройти это испытание. Меня воодушевляют и вдохновляют тысячи исследователей, которые посвятили свою карьеру помощи нам в понимании и управлении моделями ИИ, а также в формировании характера и конституции этих моделей. Я думаю, что теперь есть хороший шанс, что эти усилия принесут плоды вовремя, чтобы иметь значение. Меня воодушевляет то, что по крайней мере некоторые компании заявили, что они готовы нести значительные коммерческие издержки, чтобы блокировать вклад своих моделей в угрозу биотерроризма. Меня воодушевляет то, что несколько храбрых людей сопротивлялись преобладающим политическим ветрам и приняли законодательство, которое закладывает первые ранние семена разумных мер безопасности для систем ИИ. Меня воодушевляет то, что общественность понимает, что ИИ несёт риски, и хочет, чтобы эти риски были устранены. Меня воодушевляет неукротимый дух свободы по всему миру и решимость сопротивляться тирании, где бы она ни возникала.
Но нам нужно активизировать наши усилия, если мы хотим добиться успеха. Первый шаг для тех, кто ближе всего к технологии, — это просто сказать правду о ситуации, в которой находится человечество, что я всегда старался делать; я делаю это более явно и с большей срочностью в этом эссе. Следующим шагом будет убеждение мыслителей, политиков, компаний и граждан мира в неотложности и первостепенной важности этого вопроса — что стоит тратить мысли и политический капитал на это по сравнению с тысячами других проблем, которые доминируют в новостях каждый день. Затем наступит время для мужества, для достаточного количества людей, чтобы противостоять преобладающим тенденциям и стоять на принципах, даже перед лицом угроз их экономическим интересам и личной безопасности.
Предстоящие годы будут невероятно трудными, требующими от нас большего, чем мы думаем, что можем дать. Но за время моей работы исследователем, лидером и гражданином я видел достаточно мужества и благородства, чтобы верить, что мы можем победить — что, оказавшись в самых мрачных обстоятельствах, человечество находит способ собрать, казалось бы, в последнюю минуту, силу и мудрость, необходимые для победы. Нам нельзя терять ни минуты.
Я хотел бы поблагодарить Эрика Бринйолфссона, Бена Бьюкенена, Мариано-Флорентино Куэльяра, Аллана Дафо, Кевина Эсвельта, Ника Бекстеда, Ричарда Фонтейна, Джима МакКлейва и многих сотрудников Anthropic за их полезные комментарии к черновикам этого эссе.
Перевод статьи Дарио Амадея «Подростковый Возвраст Технологий»


