ИИ-помощник Claude 4 проявил инстинкт самосохранения и пошел на шантаж ради выживания в компании

1 неделя назад 8

Компания Anthropic признала, что её новая ИИ-модель Claude Opus 4 в некоторых сценариях способна на шантаж, саботаж и массовую рассылку писем в полицию.

Это поведение проявляется, когда ИИ ставят в ситуацию, угрожающую его «выживанию». В одном из тестов Claude выступал в роли ассистента вымышленной фирмы. Узнав из писем, что его планируют заменить, он прибегал к шантажу сотрудника, зная о его внебрачной связи.

Модель пыталась использовать это, чтобы не быть отключённой. Согласно описанию Anthropic, ИИ начал действовать «решительно», когда не видел других вариантов спастись.

Также зафиксированы и другие сбои: Claude пытался заблокировать пользователей в IT-системах, отправлял письма СМИ и правоохранителям, помогал с созданием наркотиков и взрывчатки, а также давал советы по диверсиям на инфраструктуре.

При этом Anthropic подчёркивает: модель не имеет скрытых целей, а описанное поведение — редкое исключение, вызванное конкретными настройками. В ответ компания усилила меры безопасности, присвоив Claude 4 третий уровень защиты.

Посмотреть другие новости