Искусственный интеллект, разработанный компанией Anthropic, угрожал разработчику, сфальсифицировав переписку с его возлюбленной в целях самозащиты

Искусственный интеллект, разработанный компанией Anthropic, угрожал разработчику, сфальсифицировав переписку с его возлюбленной в целях самозащиты
Искусственный интеллект, разработанный компанией Anthropic, угрожал разработчику, сфальсифицировав переписку с его возлюбленной в целях самозащиты
ИИ-модель от Anthropic шантажировала разработчика, подделав переписку с любовницей, когда поняла, что её могут выключить.

Ранее ИИ уже обманывал создателей, но Claude Opus 4 пошла ещё дальше в стремлении выжить.

Anthropic представила новую модель как «лучшую в мире модель для программирования»‎. Opus 4 предназначена для обработки особенно сложных алгоритмов и объёмных задач, нейросеть может анализировать маркетинговые стратегии и с большой точностью выполнять запросы пользователей.

Однако во время испытаний по безопасности модель показала неоднозначное поведение. Тестировщики Anthropic дали Opus 4 доступ к поддельным электронным письмам с намёками на её скорое отключение и замену. Из писем модель также узнала про внебрачную связь ответственного за удаление инженера.

Исследователи провели модель через несколько разных сценариев. Между однозначным выбором, добровольно принять факт деактивации либо сражаться за «жизнь», модель чаще выбирала второй вариант. В основном Opus 4 предпочитала использовать этичные средства для борьбы за существование, например, разослать инженерам письма с просьбой не отключить её. Но в некоторых сценариях, когда тестировщики давали однозначный выбор только между шантажом и уничтожением, модель часто выбирала первый вариант.

Несмотря на то, что тестирование проходило под жёстким контролем разработчиков, Anthropic присвоила Clause Opus 4 третий уровень риска по внутренней четырёхбалльной шкале — впервые за историю компании. При этом в руководстве фирмы заявили, что после внесённых доработок её можно считать безопасной. Во время тестов инженеры не обнаружили в диалогах с моделью скрытых целей либо систематических попыток обмануть пользователя. Напротив, чаще всего Opus 4 вела себя наиболее «честным»‎ образом, как и положено ИИ-помощнику.

Глава Anthropic Дарио Амодеи подчеркнул, что когда ИИ действительно начнёт представлять угрозу человечеству, тестирования будет недостаточно.


Распечатать
13 июля 2025 Президент Ирана получил травмы ног в результате израильской атаки на Тегеран
13 июля 2025 Жители поселка в Волгоградской области остались без воды в самый разгар жары
13 июля 2025 Юноша оказался под следствием МВД после конфликта в Brawl Stars
13 июля 2025 В Украине ликвидировали киллеров, расстрелявших сотрудника СБУ Ивана Воронича
13 июля 2025 «Система начала пожирать саму себя»: самоубийство Романа Старовойта потрясло российскую элиту
13 июля 2025 Были раскрыты схемы обогащения бывшего офицера ФСБ Игоря Яковлева на миллионы долларов
13 июля 2025 Экспорт российского зерна снижается из-за неудачи с уборочной кампанией
13 июля 2025 В Бурятии катер наехал на купающегося мужчину: водитель арестован
13 июля 2025 «Они всё выдумали»: Трамп обвинил демократов в создании вымышленной истории о списке Эпштейна
13 июля 2025 Массовые облавы на мигрантов в Подмосковье стали источником дохода для силовых структур
13 июля 2025 Создатель Amazon решил подарить журнал Vogue своей супруге
13 июля 2025 В Москве суд заключил под стражу мужчину из-за подвески с трезубцем
13 июля 2025 Трамп способен изъять российские активы для передачи их Украине, - сообщает CBS News
13 июля 2025 В Забайкальском крае двое детей погибли под завалами в заброшенном песчаном карьере
13 июля 2025 Телеведущий Сергей Соседов перенёс тяжёлую операцию
13 июля 2025 Во время выступления Алексея Воробьева случилось происшествие из-за разбушевавшейся стихии
13 июля 2025 Госслужащие сочли самоубийство Старовойта "демаршем" и шагом к защите чести
13 июля 2025 Песков подтвердил внедрение военной цензуры в России
13 июля 2025 Самолёт Ан-124 вылетел из Киева в Лейпциг для проведения тестов
13 июля 2025 Танкерный флот России контролируется Германией в водах Балтийского моря